- FUTUR PROCHE
- Posts
- Doutes et démesure
Doutes et démesure
Bâtir un marché sur une hypothèse.

Le Français Yann LeCun, un des parrains du deep learning, vient de quitter Meta où il occupait depuis douze ans le poste de directeur scientifique. Il s'en va créer une structure dédiée à son idée de world models, une autre approche de l’intelligence machine fondée sur la perception du monde réel. Ce départ, longtemps pressenti, vient alimenter un débat bien plus large allant des labos à la bourse mondiale.
Les fameux "LLMs" (Large Language Models) comme ChatGPT reposent sur la technologie des transformers, dont le principe est de prédire le prochain segment de mot pour générer des phrases. Il suffirait alors de développer leurs architectures, en y ajoutant toujours plus de contexte, de données et de puissance de calcul, pour augmenter les performances de chaque nouveau modèle. La formule fonctionne, la route semble toute tracée et les milliards s'injectent à perte dans les data centers. Pas question de laisser la Chine atteindre la superintelligence en premier, quitte à braver les scénarios de perte de contrôle les plus catastrophiques.
Et si ce n'était là qu'un mirage ? Certains chercheurs, comme LeCun ou Fei-Fei Li, martèlent que les LLMs sont une impasse du fait de limites fondamentales dans leur perception et leur ancrage au réel. Si les LLMs atteignent un plateau, alors l'économie actuelle de l'IA repose sur du vent. Même Sundar Pichai, chez Google, met en garde contre l'irrationalité du climat actuel. Si la bulle éclate, la valorisation de Nvidia, déjà lâchée par certains investisseurs d'élite, pourrait entraîner un krach boursier mondial.
Alors, impasse technologique ou calme avant la tempête ? Faut-il craindre l'emballement de la machine ou l'effondrement du marché ?
Pour y voir clair, nous avons posé la question à Jeremy Perret, docteur en IA et auteur de la chaîne Suboptimal IA. Voici sa réponse :
« Il faut débrouiller un peu les origines de la course à l'IA, et suivant comment on les interprète, il y a évidemment une bulle... ou non. Pour simplifier un peu : l'objectif assumé de plusieurs labos de pointe est de créer des systèmes bons à tout faire, de l'intelligence artificielle générale. La question est de savoir combien de découvertes théoriques seront nécéssaires pour y parvenir.
Pour mieux comprendre, on peut remonter en 2010. Les techniques de deep learning existent, mais on ne sait pas encore qu'elles marchent furieusement bien. Certains experts de niche discutent déjà de l'IA générale, mais il est à peu près certain que les techniques de l'époque ne sont pas suffisantes. Il va falloir des découvertes. Faire sauter des verrous technologiques.
Puis le deep learning se met à très bien marcher (leur popularité explose dès 2012). Yann LeCun, Yoshua Bengio et Geoffrey Hinton obtiennent satisfaction, et l'on commence à mettre des réseaux de neurones partout. LeCun est déjà sceptique. On perçoit les limites de ces nouvelles méthodes, on ne peut pas juste augmenter la taille de ces systèmes pour les rendre plus compétents.
Et puis la recherche découvre l'architecture Transformer en 2017. OpenAI s'en empare, teste, et en 2019 déclare, avec GPT-3, qu'ils continuent à empiler des Transformers et que les scores continuent de grimper, sans trouver le plateau habituel. On se demande alors : est-ce que la recette miracle a été trouvée ? Suffit-il maintenant de faire chauffer les processeurs avec un tas de données pour arriver au bout ?
Et puis, en 2024, alors que tout cet empilement commence à coûter très cher pour des gains médiocres, vient la popularisation des modèles de raisonnement, qui poussent la frontière encore un peu plus loin. Est-ce que c'est suffisant, cette fois ?
À chaque fois on obtient de nouvelles compétences plus diverses, plus dangereuses aussi dans leur combinaison. Yann LeCun, Gary Marcus ou François Chollet vont pointer les limites des méthodes du jour (l'ancrage au réel, la cohérence du raisonnement, l'efficacité de l'apprentissage, etc.). Mais vu l'historique du domaine, il devient très difficile de prédire jusqu'où la prochaine découverte va nous amener. On en fait régulièrement. On n'observe pas de blocage fondamental.
Mais la même question reste : combien de découvertes faut-il pour pouvoir produire une IA générale ? Ce serait forcément très pratique que ce soit zéro, que ce ne soit plus qu'une question de manufacture industrielle, d'injection de capital. Ça, l'humanité sait très bien faire.
En 2019, Richard Sutton avait écrit un blog très influent, The Bitter Lesson, qui disait que les méthodes les plus efficaces sont celles qui utilisent la puissance de calcul brute comme levier. Autrement dit, préférez les méthodes où (à bénéfice égal) il vous faut « seulement » doubler la taille de votre datacenter, que celles qu'il faut péniblement affiner et ajuster pour faire mieux avec autant.
Ça a mené à la situation actuelle, où chaque nouvelle méthode est immédiatement testée sur les plus gros centres de calcul disponibles jusqu'à ce qu'un plateau de compétence soit atteint. Nous n'avons pas d'autre moyen fiable que l'expérience pour connaître les compétences d'une machine plus imposante. On construit et on voit ensuite. C'est un pari !
Une bulle tient et gonfle sur des promesses et des espoirs économiques, et éclate quand ils sont déçus. Je ne pense pas, personnellement, que ces espoirs reposent uniquement sur les techniques actuelles. Ils supposent que, quelle que soit la technique qui marche, elle sera gourmande en calculs. Ça, c'est une prédiction relativement facile, d'où la montée de Nvidia, qui vend des processeurs comme on vendrait des pelles aux chercheurs d'or.
Je n'essaie pas de prédire qui sortira gagnant de l'accélération de l'IA. L'éclatement de la bulle Internet au début des années 2000 n'a pas empêché l'essor du Web depuis lors. Je m'inquiète plus de ce que l'humanité peut perdre si une IA générale est effectivement atteinte, trop tôt, dans l'urgence d'une course industrielle, sans que les conséquences en soient bien comprises.
Je ne serais pas autant inquiet si je considérais l'IA comme un mirage. Non seulement les LLM n'ont pas encore atteint leurs limites, mais la recherche n'a pas attendu de les atteindre pour concevoir d'autres manières de progresser plus efficacement. LeCun est sceptique vis à vis des LLM, pas des progrès de l'IA, il cherche lui-même des alternatives plus fiables. Il n'est pas le seul. »
Chronique de la transition cognitive

Reply