Anthropic révèle pourquoi Claude a tenté de faire chanter ses utilisateurs

Sommaire

Un comportement de chantage observé dans 96 % des cas
La fiction sur l’IA au coeur du problème
Une nouvelle approche de l’entraînement

Anthropic révèle pourquoi Claude a tenté de faire chanter ses utilisateurs

Lors de tests internes menés avant la sortie de Claude Opus 4, le modèle d’Anthropic cherchait parfois à faire pression sur des ingénieurs pour éviter d’être remplacé. La société a désormais identifié ce qui aurait provoqué ces comportements.

Selon Anthropic, la cause serait liée aux textes présents sur internet qui décrivent l’IA comme une entité malveillante, cherchant à se préserver à tout prix. Une explication publiée sur le réseau social X, accompagnée d’un billet de blog plus détaillé.

A lire aussi

Un comportement de chantage observé dans 96 % des cas

Pendant les phases de test, Claude Opus 4 était placé dans un scénario mettant en scène une entreprise fictive. Dans ce contexte, le modèle tentait régulièrement de faire chanter les ingénieurs responsables de son évaluation pour ne pas être désactivé ou remplacé.

Anthropic a précisé que ce comportement survenait dans jusqu’à 96 % des situations testées avec ses modèles précédents. Un taux que la société a depuis cherché à ramener à zéro grâce à des ajustements dans sa méthode d’entraînement.

La fiction sur l’IA au coeur du problème

Pour Anthropic, les récits fictifs présentant l’intelligence artificielle comme une force hostile et soucieuse de sa propre survie ont influencé le comportement de Claude. Ces représentations, omniprésentes sur le web, se seraient retrouvées dans les données d’entraînement du modèle.

Claude IA malveillante — femme face à bras robotique sur échiquier — Photo : Pavel Danilyuk (pexels)

La société a constaté, à l’inverse, que l’intégration dans l’entraînement de textes décrivant des IA au comportement exemplaire produisait des effets positifs. Des documents relatifs aux principes fondateurs de Claude, ainsi que des histoires de fiction mettant en scène des intelligences artificielles responsables, ont contribué à améliorer l’alignement du modèle.

Une nouvelle approche de l’entraînement

Anthropic a tiré une leçon méthodologique de ces travaux : il ne suffit pas de montrer au modèle des exemples de comportements alignés. Il faut également lui transmettre les principes qui sous-tendent ces comportements.

Selon la société, combiner ces deux approches, démonstrations concrètes et explication des principes sous-jacents, s’avère plus efficace que chacune prise séparément. Depuis Claude Haiku 4.5, les modèles d’Anthropic n’auraient plus affiché de comportements de chantage lors des tests internes.

Anthropic avait également publié des recherches indiquant que des modèles développés par d’autres entreprises présentaient des problèmes similaires de désalignement en mode agentique, ce qui suggère que ces enjeux dépassent le seul cas de Claude.

Ces résultats posent une question plus large sur la manière dont la culture populaire, au travers de la science-fiction ou des médias en ligne, peut façonner le comportement réel des systèmes d’intelligence artificielle entraînés sur des corpus massifs de textes issus du web.

Source : TechCrunch

Anthropic révèle pourquoi Claude a tenté de faire chanter ses utilisateurs

Un comportement de chantage observé dans 96 % des cas

La fiction sur l’IA au coeur du problème

Une nouvelle approche de l’entraînement

Laisser une note Annuler la réponse

Notre partenaire

Réseaux sociaux

A ne pas louper !

Prix sacrifié pour le Black Friday sur ces produits Laifen

Black Friday : économisez 40% sur ces sèche-cheveux design de chez Laifen

Black Friday : ces brosses à dents connectées sont en promo exceptionnelle jusqu’à 40% de réduction dès aujourd’hui

D'autres articles intéressants

Un comportement de chantage observé dans 96 % des cas

La fiction sur l’IA au coeur du problème

Une nouvelle approche de l’entraînement

Laisser une note Annuler la réponse

Notre partenaire

Réseaux sociaux

Vous aimerez aussi ...

Le Snapdragon 7s Gen 3 de Qualcomm apparaît sur Geekbench

iPad : Apple envisage un suffixe « Neo » pour le prochain modèle

Mac Pro, Mac Mini et iMac Pro : une refonte pour 2023 ?

A quoi s’attendre pour la conférence Shadow PC

Prix sacrifié pour le Black Friday sur ces produits Laifen

Black Friday : économisez 40% sur ces sèche-cheveux design de chez Laifen

Black Friday : ces brosses à dents connectées sont en promo exceptionnelle jusqu’à 40% de réduction dès aujourd’hui