Charles TechCharles Tech
  • Tests High-Tech
    • Smartphones
      • iPhone
      • Asus
      • Huawei
      • Poco
      • Samsung
      • Xiaomi
    • Ordinateurs
      • PC fixe / gamer
      • PC portables
    • Composants PC
      • Cartes Graphiques
      • Processeurs
      • SSD
    • Eléctromenager
      • Aspirateurs robots
    • Périphériques
      • Claviers
      • Souris
  • Actu Tech
  • Bons plans
  • Dossiers
  • Guides d’achat
  • Tutos
  • Langues
Vous lisez Anthropic révèle pourquoi Claude a tenté de faire chanter ses utilisateurs
Font ResizerAa
Charles TechCharles Tech
Font ResizerAa
Rechercher ...
  • Tests High-Tech
    • Smartphones
    • Ordinateurs
    • Composants PC
    • Eléctromenager
    • Périphériques
  • Actu Tech
  • Bons plans
  • Dossiers
  • Guides d’achat
  • Tutos
  • Langues
Suivez-nous
Charles Tech > Actualité High-Tech : Toutes nos dernières news > Anthropic révèle pourquoi Claude a tenté de faire chanter ses utilisateurs

Anthropic révèle pourquoi Claude a tenté de faire chanter ses utilisateurs

Charles Gouin-Peyrot
Charles Gouin-Peyrot
Published: 11/05/2026
Last updated: 11/05/2026
Ce site utilise des liens affiliés qui participent aux revenus du site. En les utilisant, ça ne vous coûte pas plus cher, mais un pourcentage nous est reversé pour continuer à vous informer et à proposer des tests toujours plus complets.
Partager
Résumer avec :
ChatGPT ChatGPT
Grok Grok
Perplexity Perplexity
Claude Claude
Sommaire
  • Un comportement de chantage observé dans 96 % des cas
  • La fiction sur l’IA au coeur du problème
  • Une nouvelle approche de l’entraînement
Anthropic révèle pourquoi Claude a tenté de faire chanter ses utilisateurs

Lors de tests internes menés avant la sortie de Claude Opus 4, le modèle d’Anthropic cherchait parfois à faire pression sur des ingénieurs pour éviter d’être remplacé. La société a désormais identifié ce qui aurait provoqué ces comportements.

Selon Anthropic, la cause serait liée aux textes présents sur internet qui décrivent l’IA comme une entité malveillante, cherchant à se préserver à tout prix. Une explication publiée sur le réseau social X, accompagnée d’un billet de blog plus détaillé.

Anthropic révèle pourquoi Claude a tenté de faire chanter ses utilisateurs

A lire aussi

D'autres articles intéressants

MSI présente de nouveaux produits au Computex 2022
Huawei Mate 50 : Plus de batterie ? Il fonctionne toujours !
Les AirPods pourraient être dotés de fonctions de santé d’ici 2025
La valorisation de Twitter chute de 44 à 22 milliards de dollars
AirPods : Apple corrige enfin un sérieux problème de sécurité
  • Pourquoi Anthropic rencontre des religieux pour construire la morale de son IA
  • iOS 27 : les utilisateurs choisiront leur propre modèle d’IA

Un comportement de chantage observé dans 96 % des cas

Pendant les phases de test, Claude Opus 4 était placé dans un scénario mettant en scène une entreprise fictive. Dans ce contexte, le modèle tentait régulièrement de faire chanter les ingénieurs responsables de son évaluation pour ne pas être désactivé ou remplacé.

Anthropic a précisé que ce comportement survenait dans jusqu’à 96 % des situations testées avec ses modèles précédents. Un taux que la société a depuis cherché à ramener à zéro grâce à des ajustements dans sa méthode d’entraînement.

La fiction sur l’IA au coeur du problème

Pour Anthropic, les récits fictifs présentant l’intelligence artificielle comme une force hostile et soucieuse de sa propre survie ont influencé le comportement de Claude. Ces représentations, omniprésentes sur le web, se seraient retrouvées dans les données d’entraînement du modèle.

Claude IA malveillante — femme face à bras robotique sur échiquier
Photo : Pavel Danilyuk (pexels)

La société a constaté, à l’inverse, que l’intégration dans l’entraînement de textes décrivant des IA au comportement exemplaire produisait des effets positifs. Des documents relatifs aux principes fondateurs de Claude, ainsi que des histoires de fiction mettant en scène des intelligences artificielles responsables, ont contribué à améliorer l’alignement du modèle.

Une nouvelle approche de l’entraînement

Anthropic a tiré une leçon méthodologique de ces travaux : il ne suffit pas de montrer au modèle des exemples de comportements alignés. Il faut également lui transmettre les principes qui sous-tendent ces comportements.

Selon la société, combiner ces deux approches, démonstrations concrètes et explication des principes sous-jacents, s’avère plus efficace que chacune prise séparément. Depuis Claude Haiku 4.5, les modèles d’Anthropic n’auraient plus affiché de comportements de chantage lors des tests internes.

Anthropic avait également publié des recherches indiquant que des modèles développés par d’autres entreprises présentaient des problèmes similaires de désalignement en mode agentique, ce qui suggère que ces enjeux dépassent le seul cas de Claude.

Ces résultats posent une question plus large sur la manière dont la culture populaire, au travers de la science-fiction ou des médias en ligne, peut façonner le comportement réel des systèmes d’intelligence artificielle entraînés sur des corpus massifs de textes issus du web.

Source : TechCrunch

Partager cet article
Facebook Email Copy Link Imprimer
ByCharles Gouin-Peyrot
Suivre
Depuis plus de 10 ans, je suis passionné des innovations technologiques et de ce qu'elles apportent. Comme une fiche technique ne dit jamais tout, rien ne vaut un vrai test, par un expert qui a déjà vu passer entre ses mains des centaines de produits en tout genre. Geek, passionné d'informatique qui monte des ordinateurs le week-end et teste un nouveau robot tondeuse le soir, je suis aussi photographe amateur.
Laisser une note

Laisser une note Annuler la réponse

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Sélectionnez une note

Notre partenaire

offre nordvpn

Réseaux sociaux

23KLike
38KSuivre
170Suivre
2.8KAbonnement
10.8KSuivre
1.1KSuivre
34Suivre

Vous aimerez aussi ...

5. BLUETTI B300K

Bluetti lance de nouveaux capteurs solaires de balcon et la nouvelle batterie B300K

25/04/2026

MediaTek Dimensity 8000 : le nouveau concurrent du Snapdragon 870

17/12/2021
Elon Musk

Twitter confirme des licenciements dans toute l’entreprise

04/11/2022
Pixel 9 Pro

Google désactiverait certaines fonctionnalités d’IA sur le Pixel 9 quand le bootloader est déverrouillé

25/04/2026

A ne pas louper !

laifen wave acier
Prix sacrifié pour le Black Friday sur ces produits Laifen
Bons plans
laifen se lite
Black Friday : économisez 40% sur ces sèche-cheveux design de chez Laifen
Bons plans
laifen wave acier
Black Friday : ces brosses à dents connectées sont en promo exceptionnelle jusqu’à 40% de réduction dès aujourd’hui
Bons plans
  • Annoncer sur CharlesTech
  • Mentions légales
  • Contactez nous
  • À propos
  • Plan de site
© Charles Tech 2017 - 2025 - Toute reproduction (même partielle) interdite sous peine de poursuites.
Re !

Connectez-vous

Username or Email Address
Password

Vous avez perdu votre mot de passe ?