← Retour au blog

L'Architecture Cognitive et les Modèles du Monde de Yann LeCun : Vers une Intelligence Artificielle Autonome (AMI)

L'Architecture Cognitive et les Modèles du Monde de Yann LeCun : Vers une Intelligence Artificielle Autonome (AMI)

Découvrez l'architecture JEPA et les "World Models" de Meta pour dépasser les limites des LLMs. Une analyse complète de la vision de Yann LeCun vers une IA autonome (AMI) dotée de sens commun. (160 caractères - contient les mots-clés principaux : JEPA, World Models, Meta, Yann LeCun, LLMs, IA autonome)

L'Architecture Cognitive et les Modèles du Monde de Yann LeCun : Vers une Intelligence Artificielle Autonome (AMI)

Introduction : La Crise de l'IA Générative et la Quête du Sens Commun

L'intelligence artificielle contemporaine vit un paradoxe fascinant. D'un côté, les grands modèles de langage (LLMs) et les générateurs d'images ont atteint des niveaux de fluidité et de réalisme qui défient l'imagination, réussissant le test de Turing dans de nombreuses conversations textuelles. De l'autre, ces mêmes systèmes échouent lamentablement à des tâches triviales pour un chat domestique : comprendre la permanence des objets, prédire la trajectoire d'une balle qui rebondit, ou planifier une séquence d'actions simples pour débarrasser une table sans casser la vaisselle. Yann LeCun, Prix Turing et scientifique en chef chez Meta, identifie cette lacune comme le problème fondamental de l'IA actuelle : l'absence de "modèle du monde".

L'approche dominante, l'apprentissage auto-régressif (predicting the next token), est, selon LeCun, une impasse pour atteindre l'Intelligence Générale Artificielle (AGI). Les LLMs, bien qu'encyclopédiques, ne possèdent pas de véritable compréhension de la réalité physique ; ils manipulent des probabilités statistiques de co-occurrence de mots sans ancrage dans le monde réel (grounding). Ils hallucinent car ils n'ont aucune contrainte de cohérence physique ou logique autre que la syntaxe. Pour franchir le mur actuel de l'IA, LeCun propose une vision radicalement différente, exposée dans son manifeste A Path Towards Autonomous Machine Intelligence (2022) et affinée par une série de publications majeures jusqu'en 2025 : une architecture cognitive modulaire centrée sur la prédiction d'états latents et non la génération de pixels.

Ce rapport propose une analyse exhaustive de cette approche "World Model". Nous disséquerons les fondements théoriques des modèles basés sur l'énergie (EBM), l'architecture JEPA (Joint Embedding Predictive Architecture), ses itérations pour l'image (I-JEPA) et la vidéo (V-JEPA, V-JEPA 2), ainsi que les percées techniques de 2025 concernant la planification par gradient et la parcimonie (sparsity). L'objectif est de comprendre comment cette voie alternative ambitionne de doter les machines du "sens commun" nécessaire pour agir intelligemment dans notre monde complexe.


Partie I : Fondements Théoriques et Architecture Cognitive

Pour comprendre l'innovation de l'approche JEPA, il faut d'abord déconstruire les limites de l'apprentissage profond classique et saisir la philosophie biologique et mathématique qui sous-tend la vision de LeCun.

1.1 La Critique de l'Apprentissage Auto-Régressif

Les modèles génératifs actuels (GPT-4, Llama, etc.) reposent sur l'objectif de maximiser la vraisemblance $P(x)$. Dans le cas des séquences (texte ou vidéo), cela se traduit par la factorisation :

$$P(x_1,..., x_T) = \prod_t P(x_t | x_{1:t-1})$$

LeCun soulève trois critiques majeures contre ce paradigme :

  • L'Inefficacité de la Prédiction dans l'Espace des Données : Tenter de prédire le monde au niveau des pixels (ou des tokens détaillés) est une tâche sisyphe. Le monde est intrinsèquement stochastique et bruité. Prédire la texture exacte d'un tapis ou le mouvement aléatoire des feuilles dans un arbre mobilise une capacité de calcul immense pour des détails non pertinents à la tâche. Un agent intelligent doit prédire l'essence de la situation, pas ses détails microscopiques.
  • L'Accumulation d'Erreurs (Drift) : Dans un processus génératif auto-régressif, chaque nouvelle prédiction est réinjectée comme entrée pour la suivante. Si le modèle a une probabilité d'erreur $\epsilon$ à chaque pas, la probabilité que la séquence reste cohérente après $T$ pas décroît exponentiellement en $(1-\epsilon)^T$. C'est la source des hallucinations et de l'incapacité des LLMs à planifier sur de longs horizons.
  • L'Absence de Raisonnement Causal : Les LLMs apprennent des corrélations, pas des causalités. Ils savent que "feu" est souvent suivi de "fumée" dans un texte, mais ne simulent pas le processus physique de combustion. Sans modèle interne de cause à effet, la planification d'actions nouvelles est impossible.

1.2 L'Architecture AMI (Autonomous Machine Intelligence)

Inspirée des neurosciences cognitives, l'architecture AMI proposée par LeCun divise l'esprit de l'agent en six modules fonctionnels distincts, orchestrés pour permettre un comportement flexible et dirigé par des objectifs (Objective-Driven AI).

1.2.1 Le Configurateur (Le "Chef d'Orchestre")

Ce module correspond aux fonctions exécutives du cortex préfrontal. Il reçoit les objectifs de haut niveau et configure les autres modules pour la tâche en cours. Par exemple, si l'agent doit "saisir une tasse", le configurateur ajuste le module de perception pour se focaliser sur les objets "tasse" et "main", et configure le module de coût pour pénaliser l'échec de la saisie. Il module les paramètres et les poids d'attention des autres réseaux.

1.2.2 Le Module de Perception

Analogue au cortex sensoriel (visuel, auditif), il traite les signaux bruts $x$ pour extraire une estimation de l'état actuel du monde $s_0$. Contrairement aux réseaux de neurones classiques qui classifient directement l'image, ce module produit une représentation riche et hiérarchique, prête à être utilisée par le modèle du monde pour la prédiction.

1.2.3 Le Modèle du Monde (L'Hippocampe/Cortex Frontal)

C'est la pièce maîtresse. Sa fonction est double :

  1. Estimation d'État : Compléter les informations manquantes dans la perception (occlusions).
  2. Prédiction Future : Estimer la séquence d'états futurs $(s_1, s_2,...)$ étant donné un état initial $s_0$ et une séquence d'actions proposée $(a_0, a_1,...)$.

La particularité cruciale est que cette simulation se fait entièrement dans l'espace des représentations abstraites (latent space), et non en générant des images futures pixelisées.

1.2.4 Le Module de Coût (Cost)

Ce module remplace la fonction de récompense rigide du Reinforcement Learning (RL). Il calcule une "énergie" ou une divergence, mesurant à quel point l'état actuel ou futur est indésirable. Il se compose de deux sous-parties :

  • Coût Intrinsèque (Intrinsic Cost) : "Câblé" en dur, immuable. Il code les besoins fondamentaux (ex: éviter d'endommager le robot, ne pas consommer trop d'énergie). Analogue à la douleur ou la faim.
  • Critique Entraînable (Trainable Critic) : Apprend à estimer les coûts futurs attendus, permettant à l'agent d'anticiper les conséquences négatives à long terme. Analogue à l'amygdale ou au striatum ventral.

1.2.5 L'Acteur (Actor)

L'acteur génère des propositions d'actions. Contrairement aux politiques (policies) en RL qui sont souvent des réflexes entraînés ($State \to Action$), l'acteur de l'AMI peut fonctionner selon deux modes :

  • Mode 1 (Réflexe) : Une action est produite directement à partir de l'état, par habitude (comme conduire sur une route familière). C'est le Système 1 de Kahneman.
  • Mode 2 (Planification) : L'acteur propose une séquence, le modèle du monde simule le résultat, le module de coût évalue ce résultat, et l'acteur optimise sa proposition pour minimiser le coût. C'est le Système 2, le raisonnement délibératif.

1.2.6 La Mémoire à Court Terme

Stocke la trace des états passés, des actions et des coûts pour permettre l'apprentissage et le contexte temporel, fonctionnant comme une mémoire de travail.

1.3 Modèles à Base d'Énergie (EBM) : Le Langage Mathématique

L'unification de ces modules se fait via le formalisme des Energy-Based Models (EBM). Contrairement aux modèles probabilistes qui doivent normaliser leurs sorties pour que la somme des probabilités soit égale à 1 (ce qui est intraitable dans des espaces de haute dimension), les EBMs attribuent simplement un score scalaire (l'énergie $F(x, y)$) à chaque configuration de variables.

  • Une énergie basse signifie que la configuration $(x, y)$ est compatible (plausible, observée).
  • Une énergie haute signifie qu'elle est incompatible (impossible, jamais vue).

L'apprentissage consiste à "sculpter" la surface d'énergie : abaisser l'énergie autour des données d'entraînement et la remonter partout ailleurs. Le défi majeur est de s'assurer que l'énergie est haute pour les données non observées sans avoir à explorer tout l'espace. C'est ici que l'architecture JEPA introduit une solution élégante.


Partie II : L'Architecture JEPA (Joint Embedding Predictive Architecture)

JEPA est la réponse technique de LeCun au problème de la modélisation du monde. Elle s'oppose aux architectures génératives (qui reconstruisent $x$) et aux architectures contrastives classiques (qui nécessitent des paires négatives massives).

2.1 Le Concept Fondamental : Prédiction vs Génération

Dans un modèle génératif standard (ex: Auto-encodeur, VAE, MAE), le réseau possède un encodeur $E(x) \to z$ et un décodeur $D(z) \to \hat{x}$. La perte est calculée dans l'espace des pixels : $|x - \hat{x}|^2$.
Ce processus force le modèle à encoder tous les détails nécessaires à la reconstruction graphique, y compris le bruit de fond, les textures complexes et les éléments non pertinents sémantiquement.

JEPA supprime le décodeur.
Il utilise deux branches :

  1. Branche x (Passé/Contexte) : Encode $x$ vers une représentation $s_x$.
  2. Branche y (Futur/Cible) : Encode $y$ vers une représentation $s_y$.
  3. Prédicteur : Tente de prédire $s_y$ à partir de $s_x$ (et potentiellement d'une variable latente $z$ ou d'une action $a$).

La perte est calculée directement dans l'espace latent : $|Pred(s_x) - s_y|$.

Cela permet au modèle d'être "aveugle" aux détails que l'encodeur a choisi d'ignorer. Si l'encodeur décide que la couleur exacte des feuilles n'est pas importante pour la représentation de l'arbre, le prédicteur n'est pas pénalisé pour ne pas la prédire. C'est l'essence de l'abstraction.

2.2 Le Spectre de l'Effondrement (Collapse)

Le danger mortel des méthodes sans reconstruction ni contraste est l'effondrement trivial (representation collapse). Si l'encodeur apprend à produire une sortie constante (ex: un vecteur de zéros) pour n'importe quelle entrée :
$s_x = 0$
$s_y = 0$
$Pred(s_x) = 0$
$Loss = |0 - 0| = 0$
La perte est parfaite, mais le modèle est inutile. Pour éviter cela, JEPA utilise des mécanismes spécifiques qui ne dépendent pas de la répulsion de paires négatives.

2.2.1 La Solution Asymétrique (I-JEPA, V-JEPA)

La méthode privilégiée par Meta dans ses papiers récents est l'asymétrie de mise à jour.

  • L'encodeur de contexte et le prédicteur sont entraînés par descente de gradient (Backpropagation).
  • L'encodeur cible (qui produit la vérité terrain $s_y$) n'a pas de gradient. Ses poids sont une moyenne mobile exponentielle (EMA) des poids de l'encodeur de contexte :
    $$\theta_{target} \leftarrow \lambda \theta_{target} + (1-\lambda) \theta_{context}$$

Cette "lenteur" de la cible empêche l'alignement immédiat et trivial. La cible est toujours une version légèrement retardée et plus stable de l'encodeur principal, créant une cible mouvante que le prédicteur doit chasser, forçant l'apprentissage de caractéristiques informatives.

2.2.2 La Solution par Régularisation (C-JEPA / VICReg)

Une autre approche, explorée dans C-JEPA (Contrastive JEPA) ou VICReg, ajoute des termes explicites à la fonction de perte :

  • Variance : Force chaque dimension du vecteur latent à avoir une variance minimale sur un batch (empêche de devenir constant).
  • Invariance : Force les représentations de vues différentes du même objet à être proches.
  • Covariance : Force les dimensions du vecteur latent à être décorrélées (maximise le contenu informatif et l'indépendance des features).

Partie III : I-JEPA, La Preuve de Concept par l'Image

Publié en 2023 lors de la conférence CVPR, I-JEPA (Image Joint Embedding Predictive Architecture) a été la première démonstration empirique de la supériorité de cette approche sur les méthodes génératives comme MAE (Masked Autoencoders).

3.1 Méthodologie : Masquage par Blocs

L'innovation clé d'I-JEPA réside dans sa stratégie de masquage. Au lieu de masquer des pixels aléatoires (comme BERT le fait pour les mots), I-JEPA masque des blocs sémantiques massifs.

  • Le modèle voit un bloc de contexte (environ 50-60% de l'image).
  • Il doit prédire les représentations de plusieurs blocs cibles (assez grands) qui ont été masqués.
  • Les cibles sont générées par l'encodeur EMA.
  • Le prédicteur reçoit l'embedding du contexte et un mask token qui contient uniquement l'information de position du bloc à prédire (via des embeddings positionnels ajoutés).

3.2 Résultats : L'Efficacité Sémantique

Les expériences sur ImageNet ont montré que I-JEPA apprend des représentations sémantiques de très haute qualité :

  • Performance en Linear Probing : En entraînant un classifieur linéaire simple sur les représentations figées, I-JEPA surpasse MAE. Cela prouve que les features brutes contiennent déjà la sémantique de l'objet (chien, chat, voiture), alors que MAE, focalisé sur les pixels, nécessite souvent un finetuning profond pour extraire cette sémantique.
  • Efficacité de Calcul : I-JEPA est beaucoup plus rapide à pré-entraîner. Comme il ne décode pas de pixels et que le prédicteur est léger (un ViT étroit), le coût computationnel est réduit. De plus, il converge en moins d'époques grâce à la richesse du signal d'apprentissage sémantique.
  • Robustesse locale : Contrairement aux modèles qui dépendent de la texture locale (souvent le cas des CNNs classiques), I-JEPA capture la structure globale des objets grâce à l'attention globale du Vision Transformer (ViT).

Partie IV : V-JEPA et V-JEPA 2, La Maîtrise de la Dynamique Temporelle

Si I-JEPA a prouvé le concept, la véritable ambition de LeCun est la vidéo. Le monde n'est pas statique ; l'intelligence réside dans la compréhension du mouvement et de la causalité. Les modèles V-JEPA (Video-JEPA) étendent l'architecture à la dimension temporelle.

4.1 V-JEPA (2024) : L'Apprentissage par "Masked Modeling" Spatio-Temporel

Le passage à la vidéo introduit une complexité exponentielle. V-JEPA traite la vidéo comme un volume 3D (Temps $\times$ Hauteur $\times$ Largeur).

  • Tokenisation par Tubelets : La vidéo est découpée en petits cubes spatio-temporels (tubelets), par exemple $2 \text{ frames} \times 16 \times 16 \text{ pixels}$. Cela capture immédiatement le mouvement local.
  • Masquage Temporel : Le modèle doit prédire des segments entiers de la vidéo qui sont masqués. Par exemple, on lui montre les 2 premières secondes et il doit prédire les représentations latentes de la 3ème seconde.
  • Objectif de Denoising Latent : La tâche est formulée comme une reconstruction de signal bruité (ou manquant) dans l'espace latent. L'encodeur cible fournit la vérité terrain des parties masquées.

Les résultats initiaux ont montré que V-JEPA apprenait spontanément des concepts physiques comme la gravité ou la collision, simplement en observant des vidéos, sans aucune étiquette textuelle.

4.2 V-JEPA 2 (2025) : Passage à l'Échelle et Performance SOTA

En 2025, l'équipe FAIR de Meta a publié V-JEPA 2, une version massivement améliorée qui établit un nouvel état de l'art. Ce modèle ne se contente plus de "voir", il est conçu pour "planifier".

4.2.1 Architecture et Données Massives

V-JEPA 2 est entraîné sur le dataset VideoMix22M, comprenant plus de 1 million d'heures de vidéo. Cela inclut des datasets publics (Kinetics, Something-Something) et des données web filtrées.
Le modèle utilise des architectures Vision Transformer géantes (ViT-H et ViT-g), avec jusqu'à 1 milliard de paramètres, exploitant la parallélisation massive sur des clusters de GPUs H100.

4.2.2 Entraînement à Résolution Progressive (Progressive Resolution Training)

L'une des innovations techniques majeures de V-JEPA 2 pour gérer le coût de calcul est l'entraînement progressif.

  • Phase 1 : Le modèle commence l'entraînement sur des clips courts (16 frames) et à basse résolution spatiale (224x224). Il apprend les dynamiques grossières.
  • Phase 2 (Cooldown) : On augmente progressivement la résolution spatiale (jusqu'à 384x384) et la durée temporelle (jusqu'à 64 frames).
    Cette stratégie permet d'accélérer l'entraînement d'un facteur 8 par rapport à un entraînement direct en haute résolution, tout en atteignant des performances supérieures grâce à un curriculum learning implicite.

4.2.3 Résultats et Benchmarks

V-JEPA 2 écrase les précédents benchmarks en compréhension de mouvement.

  • Something-Something v2 (SSv2) : Il atteint 77.3% de top-1 accuracy (un gain significatif sur les méthodes précédentes qui peinaient autour de 70-75%). Ce dataset est crucial car il teste la compréhension fine des actions (ex: "pousser quelque chose de gauche à droite" vs "pousser de droite à gauche").
  • Action Anticipation : Sur Epic-Kitchens-100, le modèle excelle à prédire la prochaine action humaine (ex: prendre un couteau après avoir lavé une tomate).

4.2.4 V-JEPA 2-AC (Action-Conditioned) : Le Chaînon Manquant vers la Robotique

La version standard de V-JEPA est "passive" (elle observe la vidéo). Pour contrôler un robot, il faut comprendre l'effet de ses propres actions. V-JEPA 2-AC est une variante fine-tunée.

  • Après le pré-entraînement passif, on gèle l'encodeur.
  • On entraîne un nouveau prédicteur léger qui prend en entrée l'état $s_t$ ET une action $a_t$.
  • Ce prédicteur est entraîné sur un petit dataset robotique (Droid, ~60 heures de vidéo avec logs d'actions).
  • Résultat : Le modèle apprend la dynamique $s_{t+1} = f(s_t, a_t)$ avec une efficacité d'échantillon (sample efficiency) remarquable. Il peut ensuite être utilisé pour de la planification zero-shot sur un bras robotique Franka, réussissant des tâches de manipulation complexes sans jamais avoir été entraîné explicitement avec des récompenses (Reward-Free RL).

Partie V : SparseJEPA et la Quête d'Interprétabilité

Alors que V-JEPA 2 se concentre sur la performance brute et l'échelle, une autre branche de recherche, publiée en avril 2025, s'attaque à la structure interne des représentations : SparseJEPA.

5.1 Le Problème des Représentations Denses

Dans un ViT standard, les embeddings (vecteurs latents) sont "denses" : chaque neurone participe à la représentation de chaque concept. Cela rend l'espace latent difficile à interpréter ("black box") et peut diluer l'information sémantique. De plus, cela rend le calcul en aval coûteux car toutes les dimensions doivent être traitées.

5.2 L'Apport de la Parcimonie (Sparsity)

SparseJEPA introduit une contrainte de parcimonie explicite dans la fonction de perte, inspirée des travaux sur les oi-VAE (Output Interpretable Variational Autoencoders).
La loss devient :

$$L_{total} = L_{JEPA} + \lambda L_{sparsity}$$

La $L_{sparsity}$ pénalise l'activation simultanée de trop de neurones. Elle force le réseau à choisir un petit nombre de "spécialistes" pour encoder chaque caractéristique visuelle.

5.3 Bénéfices Techniques

  • Disentanglement (Démêlage) : Les dimensions latentes deviennent plus indépendantes. Une dimension peut coder spécifiquement la couleur "rouge", une autre la forme "sphérique", facilitant la généralisation combinatoire (une sphère bleue jamais vue peut être représentée facilement).
  • Efficacité : En utilisant un backbone "Tiny ViT" avec cette contrainte, SparseJEPA atteint des performances compétitives avec des modèles beaucoup plus gros, tout en étant plus rapide à l'inférence.
  • Interprétabilité : Il devient possible d'analyser l'activité des neurones et de comprendre "ce que le modèle voit", un atout crucial pour la sécurité et la fiabilité des systèmes autonomes.

Partie VI : De la Prédiction à l'Action - La Planification

Le modèle du monde n'est qu'un outil. Son but ultime est de servir la planification. C'est ici que l'approche de LeCun diverge radicalement du RL classique (Model-Free) qui apprend des politiques par essais-erreurs coûteux.

6.1 Planification Basée sur les Gradients (Gradient-Based Planning)

Puisque le modèle du monde (réseau de neurones) est différentiable, nous pouvons utiliser la puissance du calcul différentiel pour optimiser les actions.
Au lieu d'échantillonner des milliers d'actions aléatoires (comme dans les algorithmes génétiques ou Monte Carlo), l'agent peut :

  1. Proposer une séquence d'actions initiale (aléatoire ou heuristique).
  2. Simuler le futur avec le modèle du monde.
  3. Calculer le coût futur via le module de coût.
  4. Calculer le gradient du coût par rapport aux actions d'entrée : $\nabla_{actions} Cost$.
  5. Modifier légèrement les actions dans la direction opposée au gradient (Gradient Descent) pour réduire le coût.

Ce processus est itéré jusqu'à convergence vers une séquence d'actions optimale. C'est le cœur du "Système 2" de l'IA : la réflexion avant l'action.

6.2 Le Défi du "Train-Test Gap" (Papier Décembre 2025)

Cependant, une publication critique de fin 2025, "Closing the Train-Test Gap in World Models for Gradient-Based Planning", a révélé une faille majeure dans cette belle théorie.
Le problème est le suivant : le modèle du monde est entraîné à prédire $t+1$ (one-step prediction). Mais lors de la planification, on l'utilise pour prédire $t+T$ et on optimise à travers lui.
L'optimiseur (le planificateur) agit comme un "adversaire" : il va exploiter les moindres erreurs du modèle. Il va trouver des séquences d'actions "bizarres" qui trompent le modèle en lui faisant prédire un coût nul, alors que dans la réalité, ces actions mèneraient à une catastrophe. C'est le phénomène des "exemples adversariaux" appliqué à la planification.

6.3 Solutions Avancées : OWM et AWM

Pour combler ce fossé, les chercheurs (dont l'équipe de LeCun) ont proposé deux solutions validées empiriquement :

  • Online World Modeling (OWM) - L'Approche DAgger :
    L'idée est de réinjecter la réalité dans l'entraînement. L'agent planifie, exécute ses actions (parfois erronées) dans un simulateur fiable, observe les vraies conséquences, et ajoute ces nouvelles données (trajectoires corrigées) à l'ensemble d'entraînement du modèle du monde. Le modèle apprend ainsi à corriger ses erreurs dans les régions de l'espace d'état que le planificateur aime explorer.

  • Adversarial World Modeling (AWM) - La Robustesse Intrinsèque :
    Si l'accès au simulateur est coûteux, on peut utiliser l'entraînement adversarial. On génère artificiellement des perturbations sur les états latents et les actions en utilisant la méthode FGSM (Fast Gradient Sign Method), conçue pour maximiser l'erreur de prédiction du modèle. On entraîne ensuite le modèle à être robuste face à ces "pires cas".

    • Résultat : Cela "lisse" la surface de perte (loss landscape). Au lieu d'avoir des falaises et des trous (minima locaux faux), la fonction de coût devient plus convexe et régulière, permettant à la descente de gradient de trouver de vraies solutions optimales.
    • Performance : Cette méthode permet à la planification par gradient de surpasser les méthodes classiques (comme CEM) en utilisant seulement 10% du budget de calcul.

Partie VII : Le Débat sur l'IA Générative et les Critiques

L'approche World Model de LeCun s'inscrit dans un débat scientifique intense. Elle s'oppose à deux autres écoles de pensée majeures.

7.1 LeCun vs OpenAI (Sora et les LLMs)

La sortie de Sora (le générateur vidéo d'OpenAI) a été présentée par certains comme un "simulateur de monde". LeCun réfute vigoureusement cette idée.
Pour lui, Sora est un "générateur de pixels" qui réussit des interpolations locales mais échoue sur la cohérence globale (causalité). Voir une chaise flotter ou un verre se briser à l'envers dans une vidéo générée par Sora prouve l'absence de modèle physique sous-jacent.

  • Argument Clé : La génération est inutile pour l'action. Un robot n'a pas besoin d'imaginer la vidéo HD de sa main saisissant la tasse ; il a besoin de connaître les coordonnées 3D de la tasse et la force à appliquer. JEPA fournit les coordonnées (latent), Sora fournit la vidéo (pixels). Le premier est efficace, le second est un gaspillage.

7.2 LeCun vs Ha & Schmidhuber (World Models 2018)

David Ha et Jürgen Schmidhuber ont publié un papier séminal "World Models" en 2018. Leur approche utilisait un VAE (Variational Auto-Encoder) pour compresser la vision (z) et un RNN pour prédire le futur.

  • Différence : Le modèle de Ha/Schmidhuber est génératif (il reconstruit l'image via le décodeur du VAE pour calculer sa perte). LeCun considère cela comme une limitation (le problème de reconstruire le bruit). JEPA supprime le décodeur et la reconstruction probabiliste au profit de la prédiction conjointe déterministe ou regularisée.

7.3 Les Critiques du Papier de Juillet 2025

Un papier intitulé "Critiques of World Models" (Xing et al., Juillet 2025) attaque directement l'approche JEPA sur cinq points, dont un fondamental :

  • L'Argument de l'Ancrage (Grounding) : Les auteurs arguent que sans fonction de reconstruction (décodeur vers pixels), le modèle risque de "dériver" et de perdre le contact avec la réalité physique. Ils montrent mathématiquement que minimiser la perte latente est une borne supérieure lâche de la véritable perte générative, et que cela peut mener à des représentations qui "hallucinent" des états physiques valides pour le modèle mais inexistants dans la réalité.
  • Contre-proposition : Ils suggèrent des architectures hybrides (PAN - Physical, Agentic, Nested) qui gardent une composante générative pour l'ancrage mais utilisent des latents pour la planification.

Ce débat est sain et montre que la communauté cherche le juste milieu entre l'efficacité de l'abstraction pure (JEPA) et la sécurité de l'ancrage perceptuel (Modèles Génératifs).


Partie VIII : Perspectives et Conclusion

L'approche World Model de Yann LeCun, incarnée par la famille JEPA, est bien plus qu'une nouvelle architecture de réseau de neurones ; c'est une proposition de refondation de l'IA. Elle vise à déplacer le curseur de l'IA "perroquet stochastique" (LLM) vers l'IA "physicienne intuitive".

Les avancées de 2025 sont décisives :

  1. V-JEPA 2 a prouvé que l'approche passe à l'échelle (scaling laws) et apprend des concepts complexes sur des millions d'heures de vidéo.
  2. L'intégration Robotique (V-JEPA 2-AC) a démontré que ces modèles abstraits peuvent réellement piloter des machines dans le monde physique, franchissant le fossé "Sim2Real".
  3. La Planification par Gradient Robuste (AWM) offre enfin un moteur de raisonnement efficace pour exploiter ces modèles.

Le chemin vers l'AMI (Autonomous Machine Intelligence) est encore long. Les défis restants incluent la gestion de l'incertitude stochastique complexe (comment représenter "la voiture peut tourner à gauche OU à droite" sans faire la moyenne des deux), la planification hiérarchique sur des échelles de temps très longues (H-JEPA reste largement théorique), et l'intégration du langage naturel non plus comme moteur de pensée, mais comme interface de communication du modèle du monde.

Néanmoins, l'architecture JEPA s'impose aujourd'hui comme la voie la plus crédible pour sortir de l'impasse des hallucinations génératives et construire des agents autonomes, fiables et ancrés dans la réalité physique.


Annexe Technique : Tableaux Comparatifs

Tableau 1 : Comparaison des Architectures de Modèles du Monde

Caractéristique Generative World Models (ex: Ha & Schmidhuber, Sora) JEPA World Models (LeCun, Meta FAIR)
Espace de Prédiction Pixels ($x$) ou Tokens discrets Représentation Latente ($s_y$)
Objectif d'Entraînement Reconstruction ($P(x_t | x_{<t}$) Prédiction Conjointe (Distance Latente)
Gestion de l'Incertitude Probabiliste (échantillonnage de distribution) EBM (Énergie), Variables Latentes ($z$)
Efficacité de Calcul Faible (génération coûteuse) Élevée (opérations vectorielles compactes)
Risque Principal Hallucination visuelle, focus sur le bruit Effondrement de représentation (Collapse)
Application Primaire Création de contenu, Simulation vidéo Planification, Robotique, Contrôle

Tableau 2 : Évolution de la Famille JEPA (2023-2025)

Modèle Date Domaine Innovation Technique Majeure Performance Clé
I-JEPA 2023 Image Masquage par blocs, Encodeur Cible EMA Supérieur à MAE en Linear Probing (ImageNet)
V-JEPA 2024 Vidéo Masquage Spatio-Temporel, Tubelets Apprentissage de la physique intuitive (gravité)
V-JEPA 2 2025 Vidéo Échelle (1M heures), Résolution Progressive 77.3% sur SSv2 (SOTA), Planification robotique
SparseJEPA 2025 Image Perte de Parcimonie (oi-VAE loss) Interprétabilité accrue, Disentanglement
V-JEPA 2-AC 2025 Robotique Conditionnement par l'Action, Finetuning Droid Zero-shot manipulation sans récompense

Sources et Références Bibliographiques Intégrées :

1 LeCun, A Path Towards Autonomous Machine Intelligence.
25 Bardes et al., V-JEPA 2: Self-Supervised Video Models Enable Understanding... (2025).
30 Varshney, SparseJEPA: Sparse Representation Learning... (2025).
33 Parthasarathy et al., Closing the Train-Test Gap in World Models... (Dec 2025).
40 Xing et al., Critiques of World Models (July 2025).
6 Assran et al., I-JEPA (2023).