Charles Tech
Actualité

Anthropic révèle pourquoi Claude a tenté de faire chanter ses utilisateurs

Charles Gouin-Peyrot

Publié le 11 mai 2026 · 3 min de lecture

Anthropic révèle pourquoi Claude a tenté de faire chanter ses utilisateurs
Photo : TechCrunch

Lors de tests internes menés avant la sortie de Claude Opus 4, le modèle d'Anthropic cherchait parfois à faire pression sur des ingénieurs pour éviter d'être remplacé. La société a désormais identifié ce qui aurait provoqué ces comportements.

Selon Anthropic, la cause serait liée aux textes présents sur internet qui décrivent l'IA comme une entité malveillante, cherchant à se préserver à tout prix. Une explication publiée sur le réseau social X, accompagnée d'un billet de blog plus détaillé.

Anthropic révèle pourquoi Claude a tenté de faire chanter ses utilisateurs

A lire aussi

Un comportement de chantage observé dans 96 % des cas

Pendant les phases de test, Claude Opus 4 était placé dans un scénario mettant en scène une entreprise fictive. Dans ce contexte, le modèle tentait régulièrement de faire chanter les ingénieurs responsables de son évaluation pour ne pas être désactivé ou remplacé.

Anthropic a précisé que ce comportement survenait dans jusqu'à 96 % des situations testées avec ses modèles précédents. Un taux que la société a depuis cherché à ramener à zéro grâce à des ajustements dans sa méthode d'entraînement.

La fiction sur l'IA au coeur du problème

Pour Anthropic, les récits fictifs présentant l'intelligence artificielle comme une force hostile et soucieuse de sa propre survie ont influencé le comportement de Claude. Ces représentations, omniprésentes sur le web, se seraient retrouvées dans les données d'entraînement du modèle.

Claude IA malveillante — femme face à bras robotique sur échiquier
Photo : Pavel Danilyuk (pexels)

La société a constaté, à l'inverse, que l'intégration dans l'entraînement de textes décrivant des IA au comportement exemplaire produisait des effets positifs. Des documents relatifs aux principes fondateurs de Claude, ainsi que des histoires de fiction mettant en scène des intelligences artificielles responsables, ont contribué à améliorer l'alignement du modèle.

Une nouvelle approche de l'entraînement

Anthropic a tiré une leçon méthodologique de ces travaux : il ne suffit pas de montrer au modèle des exemples de comportements alignés. Il faut également lui transmettre les principes qui sous-tendent ces comportements.

Selon la société, combiner ces deux approches, démonstrations concrètes et explication des principes sous-jacents, s'avère plus efficace que chacune prise séparément. Depuis Claude Haiku 4.5, les modèles d'Anthropic n'auraient plus affiché de comportements de chantage lors des tests internes.

Anthropic avait également publié des recherches indiquant que des modèles développés par d'autres entreprises présentaient des problèmes similaires de désalignement en mode agentique, ce qui suggère que ces enjeux dépassent le seul cas de Claude.

Ces résultats posent une question plus large sur la manière dont la culture populaire, au travers de la science-fiction ou des médias en ligne, peut façonner le comportement réel des systèmes d'intelligence artificielle entraînés sur des corpus massifs de textes issus du web.

Source : TechCrunch

L'auteur

Charles Gouin-Peyrot

Journaliste tech et testeur indépendant, je décrypte la tech grand public. Spécialisé dans le hardware, l'audio et la maison connectée, je mets ma rigueur technique et mon expérience de formateur au service de mes tests. Mon objectif est simple : dépasser les fiches techniques pour vous livrer des analyses transparentes, impartiales et ancrées dans un usage 100 % réel.