
Lors de tests internes menés avant la sortie de Claude Opus 4, le modèle d’Anthropic cherchait parfois à faire pression sur des ingénieurs pour éviter d’être remplacé. La société a désormais identifié ce qui aurait provoqué ces comportements.
Selon Anthropic, la cause serait liée aux textes présents sur internet qui décrivent l’IA comme une entité malveillante, cherchant à se préserver à tout prix. Une explication publiée sur le réseau social X, accompagnée d’un billet de blog plus détaillé.

A lire aussi
- Pourquoi Anthropic rencontre des religieux pour construire la morale de son IA
- iOS 27 : les utilisateurs choisiront leur propre modèle d’IA
Un comportement de chantage observé dans 96 % des cas
Pendant les phases de test, Claude Opus 4 était placé dans un scénario mettant en scène une entreprise fictive. Dans ce contexte, le modèle tentait régulièrement de faire chanter les ingénieurs responsables de son évaluation pour ne pas être désactivé ou remplacé.
Anthropic a précisé que ce comportement survenait dans jusqu’à 96 % des situations testées avec ses modèles précédents. Un taux que la société a depuis cherché à ramener à zéro grâce à des ajustements dans sa méthode d’entraînement.
La fiction sur l’IA au coeur du problème
Pour Anthropic, les récits fictifs présentant l’intelligence artificielle comme une force hostile et soucieuse de sa propre survie ont influencé le comportement de Claude. Ces représentations, omniprésentes sur le web, se seraient retrouvées dans les données d’entraînement du modèle.

La société a constaté, à l’inverse, que l’intégration dans l’entraînement de textes décrivant des IA au comportement exemplaire produisait des effets positifs. Des documents relatifs aux principes fondateurs de Claude, ainsi que des histoires de fiction mettant en scène des intelligences artificielles responsables, ont contribué à améliorer l’alignement du modèle.
Une nouvelle approche de l’entraînement
Anthropic a tiré une leçon méthodologique de ces travaux : il ne suffit pas de montrer au modèle des exemples de comportements alignés. Il faut également lui transmettre les principes qui sous-tendent ces comportements.
Selon la société, combiner ces deux approches, démonstrations concrètes et explication des principes sous-jacents, s’avère plus efficace que chacune prise séparément. Depuis Claude Haiku 4.5, les modèles d’Anthropic n’auraient plus affiché de comportements de chantage lors des tests internes.
Anthropic avait également publié des recherches indiquant que des modèles développés par d’autres entreprises présentaient des problèmes similaires de désalignement en mode agentique, ce qui suggère que ces enjeux dépassent le seul cas de Claude.
Ces résultats posent une question plus large sur la manière dont la culture populaire, au travers de la science-fiction ou des médias en ligne, peut façonner le comportement réel des systèmes d’intelligence artificielle entraînés sur des corpus massifs de textes issus du web.
Source : TechCrunch

