L'importance des SLM pour une généralisation de l'IA générative.
Depuis la sortie de ChatGPT, c'est la course à des modèles linguistiques de grande taille (LLM) toujours plus performants et toujours plus volumineux en nombre de paramètres, et par conséquent en taille. Cela nous offre des LLM multidomaines et génériques, mais est-ce vraiment nécessaire ?
Toujours plus grand !
Pour donner un ordre de grandeur, ChatGPT-4 est estimé à environ 1740 milliards de paramètres. Il est basé sur 16 modèles experts (MoE) et chacun d'eux est entraîné avec 111 milliards de paramètres. En comparaison, Llama 3.1 existe en différentes versions, 8, 70 et 405 milliards de paramètres. Le nombre de paramètres joue directement sur la taille du modèle et donc les prérequis pour le faire tourner. En moyenne, il faut 2 Go de RAM pour 1 milliard de paramètres (sans quantification, compression du modèle). Le calcul est vite fait : il faut 140 Go de RAM pour Llama 3.1 à 70 milliards de paramètres et donc presque 3,5 To de RAM pour l'ensemble du modèle ChatGPT-4. C'est énorme ! D'autant plus que plus le modèle est grand, plus il nécessitera de capacité de calcul et coûtera cher à faire tourner.
Et les petits dans tous ça ?
Les petits modèles commencent à devenir très performants, les méthodes d'entraînement et les jeux de données ayant évolué, ils permettent d'obtenir de bons résultats, voire meilleurs si le modèle est spécifique à une tâche.
Tel que je vois la démocratisation de l'IA, les modèles comme ChatGPT 4, génériques et complets, serviront de vitrine ou dans des contextes très précis nécessitant des capacités de raisonnement évoluées et non encore possibles avec les plus petits modèles. La majorité des cas d'usage seront simples et l'utilisation de SLM (Small Language Model) permettra de y répondre plus rapidement et à faible coût.
Voici quelques exemples pour illustrer mes propos :
- Synthétiser un texte sur des sujets courants : cela nécessite une capacité de compréhension du texte acquise par l’ensemble des modèles. Sans notion technique spécifique, les SLM peuvent déjà le faire.
- Déterminer l'opinion d'un commentaire (positif, négatif, neutre, ...) : un cas d'usage simple, au delta prêt des commentaires ironiques qui pourront être plus difficiles à jauger.
Ces exemples partagent un trait commun : ils abordent des sujets ne nécessitant aucune référence externe. Il n'y a pas besoin de connaissances spécifiques ni de se rappeler l'encyclopédie Wikipédia pour y répondre. Cette caractéristique réduit considérablement la complexité et la taille du modèle.
Micro modèles embarqués
Avec les SLM, on peut imaginer un avenir où des modèles d'IA embarqués seront capables de traiter certaines tâches localement et de manière plus efficace que de faire appel systématiquement à des LLM externes.
On même aller jusqu'à imaginer un téléphone portable avec des micros modéles qui seront capables de s'adapter à l'usage et aux habitudes d'utilisation. On aurait ainsi un téléphone optimisé pour soi. Chaque téléphone offrirait une expérience différente mais adaptée à son propriétaire.
Sources :