Claude Opus 4.8 surclasse ses rivaux en codage et fiabilité des réponses

Sommaire

Des performances en codage au-dessus de GPT-5.5 et Gemini 3.1 Pro
Moins d’affirmations douteuses, plus de signalement des incertitudes
Nouvelles fonctionnalités pour les utilisateurs professionnels
Un modèle encore plus puissant en préparation

Claude Opus 4.8 surclasse ses rivaux en codage et fiabilité des réponses

Anthropic a annoncé le lancement de Claude Opus 4.8, une nouvelle version de son modèle phare qui cible principalement les tâches de codage agentique, le raisonnement multidisciplinaire et l’analyse financière automatisée.

La mise à jour s’accompagne d’améliorations notables sur la fiabilité des réponses et d’une réduction significative du coût d’utilisation, ce qui positionne Anthropic dans une concurrence directe avec OpenAI et Google.

Des performances en codage au-dessus de GPT-5.5 et Gemini 3.1 Pro

Sur le benchmark SWE-Bench Pro, Claude Opus 4.8 atteint un score de 69,2 %. Ce résultat le place devant GPT-5.5 et Gemini 3.1 Pro sur ce test ainsi que sur plusieurs autres évaluations citées par Anthropic.

Une nuance s’impose toutefois : GPT-5.5 conserve l’avantage sur le benchmark spécifique au codage en terminal. Opus 4.8 n’efface donc pas tous ses concurrents, mais s’impose sur la majorité des tests comparatifs publiés.

Le mode rapide du modèle fonctionne désormais à 2,5 fois la vitesse de la version précédente. Le tarif global est, lui, trois fois inférieur à celui d’Opus 4.7, sans modification du prix standard pour les usages réguliers.

Moins d’affirmations douteuses, plus de signalement des incertitudes

Anthropic met en avant des progrès sur ce qu’il appelle l’honnêteté du modèle. Les testeurs rapportent qu’Opus 4.8 signale plus fréquemment ses propres incertitudes et produit moins d’affirmations non étayées.

Selon les évaluations internes d’Anthropic, le modèle est environ quatre fois moins susceptible que son prédécesseur de laisser passer des erreurs dans le code qu’il génère sans les signaler. Les mesures d’alignement indiquent également une baisse des comportements trompeurs par rapport à Opus 4.7.

Nouvelles fonctionnalités pour les utilisateurs professionnels

En parallèle du lancement d’Opus 4.8, Anthropic introduit plusieurs fonctionnalités dans son écosystème. Les workflows dynamiques (en préversion) permettent à Claude Code de planifier des tâches complexes et de lancer des centaines de sous-agents en parallèle au sein d’une même session, y compris des migrations de code sur des centaines de milliers de lignes. Cette option est réservée aux plans Enterprise, Team et Max.

Un contrôle d’effort est également disponible sur Claude.ai et Cowork : les utilisateurs peuvent ajuster le niveau d’investissement du modèle dans chaque réponse, ce qui influe sur la vitesse et la consommation des quotas. Opus 4.8 est configuré par défaut en mode effort élevé.

Côté développeurs, l’API Messages accepte désormais des entrées système directement dans le tableau de messages, ce qui permet de modifier les instructions données au modèle en cours de tâche.

Un modèle encore plus puissant en préparation

Anthropic précise travailler sur deux axes supplémentaires : des modèles offrant les capacités d’Opus 4.8 à moindre coût, et une nouvelle catégorie de modèles aux capacités supérieures à celles de la gamme actuelle.

L’entreprise teste déjà un modèle baptisé Claude Mythos auprès d’un nombre restreint d’organisations. Elle indique développer les dispositifs de sécurité nécessaires avant un déploiement plus large, prévu dans les prochaines semaines selon ses propres déclarations. Claude Opus 4.8 est disponible dès aujourd’hui sur l’ensemble des plateformes Anthropic.

Source : MacRumors