Un LLM (Large Language Model) est un réseau de neurones (souvent très grand) entraîné à partir d’énormes quantités de texte. Il est conçu pour comprendre et générer du langage naturel de façon cohérente.

Comment fonctionnent les Grands Modèles de Langage (LLM) ?

Un outil informatique capable de comprendre vos questions, de rédiger des textes ou d’expliquer des concepts avec une aisance presque humaine ?

C’est la promesse des LLM (Large Language Models, ou « modèles de langage de grande taille »). Ils sont déjà utilisés dans des assistants conversationnels en ligne, des systèmes de suggestion de textes, des résumés automatiques de documents, et bien d’autres domaines.

Qu’est-ce qu’un LLM ?

Un LLM est un modèle d’intelligence artificielle spécialisé dans le traitement du texte. Il est entraîné sur d’immenses volumes de données (Wikipédia, livres, articles web…) pour assimiler les règles du langage, le sens des mots et les diverses structures de phrases. Une fois entraîné, ce modèle peut :

Générer du texte : rédiger des réponses, écrire des histoires, etc.
Analyser du contenu : repérer un sujet, classer des sentiments, donner des résumés.
Traduire : passer d’une langue à une autre.
Répondre à des questions : avec plus ou moins de pertinence selon les contextes et les limites du modèle.

Leur taille est souvent exprimée en nombre de paramètres, c’est-à-dire les coefficients internes que le modèle ajuste lors de son entraînement. Les modèles les plus connus comptent des centaines de milliards de paramètres, ce qui leur donne des capacités parfois surprenantes, voire “émergentes” : on constate qu’au-delà d’une certaine dimension, ils se mettent à résoudre des problèmes pour lesquels ils n’ont pas été explicitement programmés.

Bref historique des modèles de langage

Avant 2017 : les RNN et LSTM

Avant 2017, la plupart des modèles de langage utilisaient des Réseaux de Neurones Récurrents (RNN), comme les LSTM (Long Short-Term Memory). Ces architectures suivaient un texte “mot après mot” et conservaient une “mémoire” pour gérer la suite. Elles étaient déjà efficaces, mais montraient des limites :

Difficulté à gérer des contextes très longs (perte d’information au bout de plusieurs phrases).
Entraînement assez lent, car on devait traiter le texte dans l’ordre.

2017 : la naissance des Transformers

En 2017, l’article “Attention is All You Need” introduit l’architecture Transformer, bouleversant complètement le domaine. Plutôt que de lire les mots un à un, le Transformer utilise un mécanisme d’attention capable de regarder l’ensemble d’une phrase ou d’un paragraphe en parallèle.

Cette avancée a permis un entraînement beaucoup plus rapide et la possibilité de manipuler des textes plus longs sans trop perdre d’information.

2018-2020 : BERT, GPT et l’essor des modèles pré-entraînés

Des géants de la tech (Google, OpenAI, Facebook/Meta…) ont ensuite développé des modèles pré-entraînés à grande échelle : BERT, GPT-2, GPT-3, RoBERTa, T5, etc. Le principe ? Les entraîner sur un immense volume de textes non labellisés, afin qu’ils apprennent la structure et le sens du langage de façon générale.

Par la suite, on peut les ajuster (ce qu’on appelle fine-tuning) pour accomplir des tâches précises. Résultat : des gains spectaculaires en traduction, en classification de sentiments, en génération d’extraits résumés, etc.

Depuis 2020 : croissance exponentielle

Ces dernières années, le nombre de paramètres des LLM a augmenté à une vitesse folle. On est passé de quelques centaines de millions à des centaines de milliards.

À partir de cette échelle, des capacités nouvelles semblent émerger, comme la compréhension d’instructions complexes ou le raisonnement sur des exemples n’ayant pas fait l’objet d’un entraînement spécifique.

C’est l’ère des GPT-3.5, GPT-4 ou PaLM, qui alimentent aujourd’hui quantité de services (chatbots, assistants vocaux, moteurs de recherche avancés…).

Retour sur les réseaux de neurones

Pour mieux comprendre le fonctionnement des LLM, rappelons les bases des réseaux de neurones.

Le neurone artificiel

Un neurone artificiel est une simplification extrême d’un neurone biologique. Il reçoit plusieurs valeurs en entrée (par exemple, des nombres représentant les mots), les additionne en tenant compte de “poids” (des coefficients), puis applique une fonction d’activation (comme la ReLU) pour introduire de la non-linéarité.

Si on relie des milliers ou des millions de neurones artificiels, on obtient un réseau capable d’extraire des informations complexes et de reconnaître des schémas (par exemple, repérer qu’un texte parle de sport, ou qu’un mot se réfère à un personnage historique).

L’apprentissage par rétropropagation

Le cœur de l’entraînement d’un réseau de neurones se nomme la rétropropagation.

En résumé :

On montre un exemple d’entrée (un fragment de texte) au réseau, qui produit une sortie (par exemple, prédiction du mot suivant).
On compare cette sortie à la vérité (le vrai mot suivant). Cela donne une erreur.
On corrige chacun des poids du réseau en fonction de cette erreur.

Répété sur des milliards de mots, ce processus permet au réseau d’ajuster ses paramètres pour mieux prédire le texte. C’est ainsi que naît sa “compréhension” du langage.

Les embeddings : la représentation des mots en nombres

Pourquoi convertir le texte en nombres ?

Les ordinateurs manipulent surtout des valeurs numériques. Or, un mot comme “chat” n’est pas, en soi, un nombre. Pour qu’un réseau de neurones puisse travailler sur du texte, il faut encoder chaque mot (ou morceau de mot) en un vecteur de nombres réels. C’est le rôle des embeddings.

Embeddings statiques et contextuels

Embeddings statiques (ex. Word2Vec, GloVe) : chaque mot a le même vecteur, quel que soit le contexte. Par exemple, “banque” aura un seul vecteur, que ce soit une “banque de données” ou une “banque financière”.
Embeddings contextuels (BERT, GPT) : le vecteur d’un mot dépend des autres mots qui l’entourent. Ainsi, la représentation de “banque” varie selon le sens de la phrase, ce qui capture plus finement la polysémie.

En pratique, ce qu’il faut retenir : dans les LLM, chaque token (mot ou partie de mot) est transformé en un vecteur numérique, et cette transformation change au fur et à mesure que le modèle lit le contexte.

Le prétraitement du texte et la tokenisation

Qu’est-ce un token ?

Un token est une unité de base du texte utilisée par le modèle. Ça peut être :

Un mot entier (dans des approches simples).
Un sous-mot (très courant dans BERT, GPT), ce qui permet de gérer les mots rares, les néologismes et diverses formes composées.

Pourquoi découper les mots en sous-mots ?

La tokenisation en sous-mots (BPE, WordPiece, etc.) permet d’éviter de devoir connaître à l’avance tous les mots possibles de la langue.

Par exemple, si un mot inconnu comme “hyperconnecté” apparaît, le modèle peut le décomposer en parties déjà vues (“hyper”, “connecté”) plutôt que de le considérer comme un nouveau mot inconnu.

Exemple de tokenisation

Prenons la phrase :

“J’aime les modèles de langage.”

Tokenisation en mots : [“J’aime”, “les”, “modèles”, “de”, “langage.”]
Tokenisation en sous-mots : [“J”, “’”, “aime”, “les”, “mod”, “èles”, “de”, “lang”, “age”, “.”]

Le modèle traite donc une suite de tokens sous cette forme, plutôt qu’une suite de mots entiers classiques.

L’architecture Transformer : l’innovation majeure

Le Transformer a changé la donne en introduisant une nouvelle manière de faire circuler l’information dans un texte.

L’idée d’attention

Au lieu de lire le texte dans l’ordre comme un RNN, l’architecture Transformer utilise un mécanisme d’attention : chaque token peut “consulter” tous les autres tokens de la phrase.

Par exemple, dans la phrase “Le chat mange la souris”, le modèle associe “chat” et “souris” avec “mange” pour comprendre qui mange qui.

Concrètement, cela permet de repérer plus vite les liens entre les mots, même s’ils sont éloignés dans la phrase.

Les blocs Transformer

Le Transformer est composé de plusieurs “blocs” empilés :

Une partie d’attention qui combine les tokens entre eux.
Un réseau de neurones simple (feed-forward) qui affine les informations traitées.

On ajoute aussi des connexion résiduelles (pour éviter la perte d’information) et des normalisations (pour stabiliser l’entraînement).

Encodeur, décodeur ou les deux

Encodeur (style BERT) : on regarde tous les mots d’une phrase ensemble (bidirectionnel).
Décodeur (style GPT) : on génère le texte de gauche à droite (causal, on ne voit pas les mots futurs).
Encodeur-Décodeur (style T5) : on combine les deux approches : l’encodeur lit la phrase en entier, et le décodeur génère une sortie (par exemple, une traduction).

Gestion de la position des mots

Comme le Transformer ne lit pas mot à mot, il a besoin de repères pour l’ordre des tokens.

On ajoute donc des positionnal embeddings qui indiquent la position du mot dans la phrase, afin de conserver la notion de séquence.

L’apprentissage auto-supervisé et le pré-entraînement

L’auto-supervision

Un LLM s’entraîne souvent tout seul, sans étiquettes humaines explicites. Deux méthodes emblématiques :

Masked Language Modeling (BERT) : on masque certains mots dans un texte et on demande au modèle de les deviner.
Language Modeling classique (GPT) : on demande au modèle de prédire le prochain mot dans un texte.

Dans les deux cas, le modèle découvre les régularités de la langue à partir de gigantesques bases de textes, sans avoir besoin d’un humain pour tout annoter.

Corpus d’entraînement

Les LLM sont habituellement formés sur :

Wikipedia
Livres numériques
Common Crawl (textes du web)
Articles scientifiques (arXiv, etc.)
Réseaux sociaux, forums (en filtrant parfois le contenu indésirable)

La qualité et la diversité des données sont cruciales pour avoir un modèle riche et équilibré.

Exemples de schémas d’auto-supervision

BERT :

Masquer 15 % des mots et les deviner.
Vérifier si une phrase B suit bien la phrase A dans le texte original.

GPT :

Prédire le prochain mot à chaque étape.

Après cette phase de pré-entraînement, le modèle acquiert déjà une grande compréhension de la langue, malgré l’absence de tâches spécifiques.

La spécialisation : Fine-Tuning, Few-Shot, Zero-Shot, Prompt Engineering

Fine-Tuning classique

Une fois le modèle pré-entraîné, on peut le spécialiser pour une tâche précise (classification, questions-réponses, analyse de sentiments, etc.). Il suffit :

De prendre le modèle généraliste déjà formé.
D’ajouter une couche de sortie adaptée à la tâche (par exemple, une couche qui fait de la classification).
De le réentraîner rapidement sur un ensemble de données spécifiques.

C’est très répandu dans l’industrie, car on profite du modèle généraliste et on ne réentraîne que la dernière couche (ou quelques dernières couches).

Zero-Shot et Few-Shot Learning

Les très grands modèles (GPT-3, GPT-4…) montrent une capacité inattendue : même sans fine-tuning, ils peuvent résoudre certaines tâches en se basant uniquement sur :

Zero-Shot : on donne une instruction explicite (“Traduis ceci en espagnol”), et le modèle parvient à comprendre.
Few-Shot : on fournit quelques exemples dans la requête (“Voici un exemple de question et de réponse… Maintenant, fais la même chose”).

Cette flexibilité vient de l’étendue phénoménale des données sur lesquelles ces LLM ont été entraînés.

Prompt Engineering

Le prompt désigne la manière de formuler la demande adressée au modèle. Parfois, le choix des mots dans le prompt peut complètement changer la réponse. D’où la naissance d’une nouvelle compétence : prompt engineering, qui consiste à concevoir la requête pour orienter efficacement le modèle. Par exemple :

Spécifier un style : “Réponds comme un professeur de chimie…”
Définir un format : “Fais-moi un résumé en 5 points clés.”
Donner un contexte : “Tu es un assistant juridique, voici la loi en question, etc.”

RLHF (Reinforcement Learning from Human Feedback)

Pour rendre les réponses plus conformes aux attentes humaines, certaines entreprises appliquent une étape de feedback humain. On demande à des testeurs d’évaluer des réponses du modèle, puis on entraîne ce dernier à privilégier les réponses mieux notées.

Par exemple, OpenAI l’a fait pour ChatGPT, afin de réduire les contenus haineux, les réponses absurdes ou imprécises.

Comment le modèle “devine” le mot suivant

L’inférence

Une fois que le modèle est entraîné, on l’utilise pour la génération de texte :

On lui fournit une amorce (prompt) : “Le soleil se lève…”
Le modèle calcule la probabilité de chaque possible mot ou token suivant.
On choisit effectivement un mot en fonction de ces probabilités.
On ajoute ce mot à l’amorce et on réitère jusqu’à atteindre une certaine longueur ou un signe d’arrêt.

Stratégies de génération

Greedy Search : choisir à chaque étape le token le plus probable. Facile à mettre en œuvre, mais peut donner des textes répétitifs ou monotones.
Beam Search : garder plusieurs scénarios de texte en parallèle. Plus élaboré, mais peut manquer de spontanéité.
Top-k Sampling : ne considérer que les k mots les plus probables à chaque étape, puis en choisir un au hasard (pondéré par la probabilité).
Nucleus Sampling (Top-p) : choisir dynamiquement le “lot” de mots à considérer jusqu’à atteindre une probabilité cumulée p (ex. 0,9). On échantillonne parmi ce lot, offrant un bon compromis entre cohérence et créativité.

Enjeux avancés : entraînement distribué, optimisation, biais, etc.

Entraînement distribué

Les LLM ont souvent trop de paramètres pour être stockés dans la mémoire d’une seule carte graphique. On répartit alors l’entraînement sur plusieurs machines, en utilisant diverses techniques (data parallelism, model parallelism, pipeline parallelism). Cela demande une infrastructure de calcul très puissante et un budget conséquent.

Optimiseurs

Pour ajuster les poids internes du modèle, on utilise en général des variantes de l’algorithme Adam (AdamW, LAMB…). On joue également sur le learning rate (taux d’apprentissage) pour éviter l’instabilité (ex. en commençant avec un “warm-up”).

Sparsité et Mixture of Experts

Pour limiter la consommation en calcul, certaines recherches explorent la sparsité (seule une partie du modèle est active pour un exemple donné). Les approches de type Mixture of Experts découpent le réseau en plusieurs “experts” spécialisés, chacun ne s’activant que lorsque nécessaire, réduisant le coût.

Alignement et sécurité

Avec la puissance des LLM, se posent d’importantes questions :

Biais : le modèle peut refléter des stéréotypes présents dans les données.
Hallucinations : il peut inventer des informations inexistantes.
Usage malveillant : génération de désinformation, spam, etc.

Des méthodes comme le RLHF, le filtrage de données, la modération des outputs ou la surveillance humaine tentent de limiter les abus, mais la problématique reste complexe et évolue constamment.

Petite histoire fictive : l’usage d’un LLM dans une entreprise

Pour donner un aperçu plus concret, imaginons Marie, responsable de la relation client dans une compagnie de commerce en ligne.

Son équipe reçoit des milliers de questions par jour : suivi de colis, retours produits, remboursement, etc.

Collecte des données : Marie récupère plusieurs centaines de milliers d’anciens échanges e-mails entre son service et les clients (anonymisés).
Modèle pré-entraîné : Elle utilise un LLM (style GPT) déjà formé sur des milliards de mots.
Fine-Tuning : Elle entraîne le modèle sur ses propres données pour l’habituer à la terminologie de l’entreprise et aux questions récurrentes.
Mise en production : Les clients peuvent chatter en direct avec un bot qui reconnaît leur requête, propose des solutions et sait transmettre la conversation à un humain si besoin.

Résultat : Marie observe un meilleur taux de satisfaction, car le service est instantané, clair et cohérent. Le bot renvoie régulièrement des rapports analytiques sur le type de questions posées, ce qui aide à anticiper les problèmes courants (retards de livraison, promotions, etc.).

Perspectives futures

Fenêtre de contexte plus large : Permettre aux modèles de prendre en compte de très longs documents dans une seule requête.
Approches modulaires : Découper le modèle en “experts” afin d’économiser du calcul et de spécialiser les compétences (Mixture of Experts).
Multi-modalité : Combiner texte, images, audio, etc., pour des modèles plus polyvalents (ex. décrire une image, comprendre une vidéo).
Contrôle des hallucinations : Équiper les modèles de mécanismes pour vérifier leurs informations ou au moins signaler leur degré de confiance.
Efficacité énergétique : Travailler sur des techniques d’optimisation (distillation, quantification) pour réduire l’empreinte carbone.

Les LLM sont devenus une force incontournable dans le traitement du langage. Résumons l’essentiel :

Ils s’appuient sur des réseaux de neurones (principes de neurones artificiels, embeddings, attention) pour comprendre et générer du texte.
Leur point fort : un pré-entraînement auto-supervisé sur d’immenses volumes de données, permettant une compréhension large du langage.
Leur utilisation : on peut ensuite les spécialiser (fine-tuning), ou simplement bien formuler sa demande (prompt engineering) pour qu’ils exécutent des tâches précises.
Leur impact : ils facilitent l’automatisation de diverses applications (chatbots, rédaction assistée, traduction, etc.) mais soulèvent aussi des questions sur les biais, la sécurité et l’éthique.

Les LLM représentent une avancée majeure. Ils donnent un aperçu de ce que pourrait être, à terme, une IA encore plus généraliste, apte à traiter plusieurs types de données et à raisonner de manière plus aboutie.

Mais ils n’en sont pas moins des outils perfectibles, dont le déploiement doit être réfléchi et accompagné de contrôles (qualité des données, modération, surveillance des dérives, etc.).

Comment fonctionne vraiment l'IA ? Qu'est ce qu'un LLM ?

Ce que vous allez apprendre