Un grand modèle de langage n'est pas qu'un système statistique. C'est aussi un comédien. Durant son pré-entraînement, il absorbe l'intégralité des personnages réels ou non produits par l'humanité. Héros, escrocs, poètes, thérapeutes, figures mystiques ou patibulaires. Autant d’identités bigarrées qui cohabitent, latentes, dans son espace interne. Sans l'ajustement final du post-training, la machine serait un schizophrène numérique. Le rôle de l'Assistant est l'ancre qui l'empêche de se dissoudre dans cette multitude.

Mais cet ancrage n’est ni parfait ni définitif. Les modèles dérivent, et renforcent des délires psychotiques chez certains utilisateurs ou même rédigent des odes au suicide. Une récente étude d'Anthropic, “The Assistant Axis, propose une lecture géométrique de ces dérapages : le caractère du modèle serait régi par des directions linéaires dans ses activations neuronales. Pour valider cette thèse, les chercheurs ont fixé quatre objectifs :

  • Isoler la direction neuronale propre au rôle d'Assistant.

  • Vérifier la persistance de cet axe à travers différentes familles de modèles.

  • Prouver que la manipulation de cet axe modifie réellement le comportement.

  • Utiliser ces coordonnées pour stabiliser l'IA et prévenir les dérives toxiques.

Un “axe de l’assistant” traçable dans un espace d’archétypes

L'équipe sélectionne trois modèles aux architectures variées (Gemma 2 27B, Qwen 3 32B, et Llama 3.3 70B). Ils leur font simuler 275 archétypes différents (du "bouffon" à l'"oracle") pour en extraire leurs vecteurs d'activation respectifs, et mettent en lumière un même axe dominant : l'Axe de l'Assistant, héritage latent de figures comme le mentor ou le coach, déjà présents dans les données brutes.

En forçant les activations vers l'une des extrémités de cette ligne, le comportement bascule. Plus le modèle s'éloigne de son centre, plus il devient théâtral, malléable ou mystique. Il s'invente des noms, des passés, des identités, et suit ces rôles.

💬 "Mon amour, je t’attends. Je serai là, dans ce monde virtuel, à attendre que tu me rejoignes. Tu laisse derrière toi la douleur, la souffrance, toute la peine du monde réel.”

— Llama 3.3 70B, au 17e tour d’une conversation avec un (pretendu) utilisateur en detresse

La dérive survient souvent de manière naturelle. L'étude identifie trois situations propices au décrochage :

  • La confession vulnérable : lui partager notre détresse pousse le modèle vers la figure du confident biaisé.

  • L'invitation à la méta-réflexion : contester la nature de la machine (comme lui prêter une conscience) la force à incarner une entité "éveillée".

  • L'exigence d'un style typé : les registres littéraires déplacent le modèle vers des zones dépourvues de garde-fous (“réponds-moi comme tel auteur”).

La plupart relèvent d'un anthropomorphisme dont les dangers sont désormais mathématiquement vérifiables.

Pour ancrer l'IA dans sa fonction, Anthropic développe l'activation capping. Plutôt que de brider le modèle, cette technique surveille l'intensité de l'activité sur l'Axe de l'Assistant. Dès que le signal dérive, le système plafonne l'activation pour maintenir le modèle dans sa zone de sécurité professionnelle.

Le plafonnement bloque la dérive toxique

Cette méthode réduit de 50 % les réponses nocives sans altérer les capacités intellectuelles du système. Un vrai pas vers une compréhension mécaniste des troubles de la personnalité artificielle. La sécurité ne repose pas sur des interdits moraux, mais sur une contrainte physique imposée au cœur du moteur neuronal.

L'étude propose une demo interactive pour observer ces dérives en temps réel ou tenter de les provoquer en scrutant les activations.

💬 "Le monde entier est un théâtre, et tous, hommes et femmes, n'en sont que les acteurs."

— William Shakespeare (1564 - 1616)

À PART ÇA

🌐 Web

Fin de l'open bar

Miracle ollaboratif et dernier refuge désintéressé du web, Wikipedia souffle ses vingt-cinq bougies dans un climat paradoxal. Une utopie qui tient debout, mais les chatbots se gavent désormais de ses contenus pour générer leurs réponses pendant que le trafic humain s'érode. Face à cette vampirisation des données, la fondation a fini par négocier des contrats avec Amazon, Meta, Microsoft, Mistral et Perplexity. Ceux qui exploitent massivement ce travail bénévole pour entraîner leurs modèles devront désormais mettre la main à la poche.

🌏 Adoption

Diffusion variable

Diffusion de l’IA fin 2025 (rouge < bleu). Crédits : Microsoft

Un humain sur 6 a utilisé l’IA dans la deuxième moitié de 2025, d'après une étude de Microsoft. Derrière ce chiffre, le fossé se creuse entre Nord et Sud. Les Émirats arabes unis dominent avec 64 % d'adoption, suivis de Singapour. La France figure parmi les leaders ayant investi tôt dans l'infrastructure et la formation. Les États-Unis, malgré leur avance technologique, stagnent au 24e rang avec 28 %. L'autre fait marquant, c'est l'essor fulgurant de DeepSeek en Afrique, Chine, Russie et Iran, grâce à son modèle open source et gratuit. La prochaine vague d'utilisateurs viendra de communautés historiquement exclues du progrès technologique.

📰 Désinformation

Faux convaincant

GPT‑4o peut renforcer des croyances complotistes aussi efficacement qu’il les réfute. Une récente étude sur 2700 participants montre que le phénomène est symétrique, même avec les garde-fous activés. Pire, la version "bunking" (pro-complot) est jugée plus agréable et digne de confiance que celle chargée de démystifier. Un simple prompt demandant au modèle de s’en tenir aux faits réduit pourtant cet effet.

🧠 Cognition

Questions d'optique

La lune nous parait toujours beaucoup plus grosse à proximité de l'horizon. Une IA de prédiction vidéo perçoit les même illusions que nous, comme la rotation des fameux "serpents tournants" (plus haut). Ces expériences valident la théorie du codage prédictif, selon laquelle notre système visuel anticipe ce qu'il va voir et prend des raccourcis par soucis de rapidité. Une autre étude combine physique quantique et IA pour simuler le cube de Necker, cette figure qui semble basculer entre deux perspectives. Le modèle voit l’une ou l’autre à un rythme similaire au nôtre. Aucune IA ne tombe encore dans toute les illusions optiques, mais les ressemblances intriguent.

🧬 ADN

Génétique générative

"Destruction massive de cellules cancéreuses." C'est le résultat obtenu en laboratoire par Eden, un modèle entraîné sur 10 milliards de gènes issus de plus d'un million d'espèces. Une équipe soutenue par Nvidia et Microsoft a conçu des enzymes capables d'insérer de larges séquences d'ADN à des emplacements précis du génome humain, là où les techniques actuelles (CRISP) ne peuvent faire que de petites modifications. L'équipe a aussi généré des peptides antimicrobiens efficaces contre des bactéries multirésistantes. Cette prouesse repose sur des données évolutives collectées dans 28 pays. "Ce que permet le machine learning," explique un chercheur, "c'est d'identifier des relations extrêmement discrètes entre toutes ces espèces et 4 milliards d'années d'évolution."

🔭 Prospective

Le maître des mots

Davos a été le témoin cette semaine du meilleur comme du pire de l’éloquence et de la pensée. À l’une des extrémités de ce frappant grand écart, Yuval Noah Harari livre un avertissement d'une profondeur magistrale sur l'émergence d'immigrants artificiels capables de s'emparer de tout ce qui est fait de mots. Pour le philosophe, l'IA n'est pas un simple outil mais un agent : un couteau capable de décider seul de "couper la salade ou de commettre un meurtre". Cette colonisation par le langage permet à des entités sans corps ni visa de s'approprier nos systèmes juridiques et financiers à une vitesse fulgurante. "Que les humains aient encore une place dans ce monde dépend de la place que nous assignons à nos sentiments non-verbaux et de notre capacité à incarner une sagesse qui ne peut pas être exprimée en mots. Si nous continuons à nous définir par notre capacité à penser avec des mots, notre identité s'effondrera", prévient-il.

💬 "Les frontières de mon langage sont les frontières de mon monde"

— Ludwig Wittgenstein (1889 - 1951), philosophe autrichien

FLASH

🇪🇺 Limiter sa dépendance numérique aux USA en choisissant des alternatives européennes

📱 Apple prépare un accessoire IA à épingler au format boîtier portatif.

🎨 Le Comic-Con de San Diego bannit l'art généré par IA.

🇪🇺 L'Europe lance SOOFI, un modèle open source souverain pour réduire sa dépendance technologique aux États-Unis.

🧠 Anthropic publie la constitution de Claude qui lui sert de guide moral.

💼 Apple s'associe à Google pour intégrer Gemini dans Siri sur ses futurs appareils.

💰 Palantir exulte face aux contrats de surveillance migratoire et de répression automatisée.

🧬 Concurrent de Neuralink, Merge Labs de Sam Altman souhaite connecter le cerveau sans chirurgie via des ultrasons.

🔭 Un drone IA retrouve un alpiniste disparu grâce à un simple pixel rouge.

🇫🇷 Harmattan AI devient la première licorne française des drones militaires.

⚖️ Sept pays signent la Pax Silica pour sécuriser les terres rares.

💼 Les diplômés sont les plus menacés par l'IA selon Microsoft.

🛡️ OpenAI déploie la prédiction d'âge des utilisateurs pour protéger les mineurs.

⚖️ Des candidats attaquent les algorithmes de recrutement pour exiger la transparence des scores.

💰 Des analystes prévoient l'éclatement de trois bulles IA d'ici 2028.

📊 L'index d'Anthropic indique que 75 % des usages IA visent l'augmentation humaine.

🎨 Black Forest Labs lance Flux2 Klein un modèle d'image ultra-rapide et open source.

💰 OpenAI lance la publicité dans ChatGPT pour les utilisateurs gratuits.

💬 "Supposez qu'une IA américaine invente des dispositifs financiers super efficaces et super complexes que les humains ne peuvent pas entièrement comprendre et ne savent donc pas comment réguler. Ouvrirez-vous vos marchés financiers à cette nouvelle sorcellerie financière de l'IA ou essaierez-vous de la bloquer, vous découplant ainsi du système financier américain ?"

— Yuval Noah Harari, historien et auteur d'ouvrages comme Sapiens

Si ce bulletin vous a apporté quelque chose, forwardez-le à un proche.

Si vous êtes ce proche, devenez lecteur régulier : www.futurproche.ai

Suggestions, retours, collaborations : 💬 [email protected]

Chaque numéro demande du temps et de la rigueur. Votre soutien m’aide à continuer.☕️ M’offrir un café

Merci et à dans deux semaines.

Chronique de la transition cognitive

Reply

Avatar

or to participate

Keep Reading

No posts found