Kimi K2.6 écrase Claude et GPT-5.5 dans un tournoi de code en temps réel

Sommaire

Un puzzle de grille pour départager les modèles
Kimi K2.6 en tête, deux modèles chinois dans le podium
Ce que révèlent les cas extrêmes
Un écart qui se resserre, sans effacer les nuances

Interface DeepSeek IA chinoise sur écran sombre, modèle concurrent — Photo : Matheus Bertelli (pexels)

Lors de la 12e édition d’un concours de programmation en temps réel, le modèle Kimi K2.6 de la startup chinoise Moonshot AI a terminé premier d’un classement à dix participants. Claude Opus 4.7, GPT-5.5 et Gemini Pro 3.1 ont tous fini derrière les deux premières places.

Ce concours, organisé et arbitré de façon indépendante, consiste à faire jouer des modèles de langage à un puzzle de lettres sur grille, en temps réel, avec un système de notation objectif. Les résultats sont calculés automatiquement et publiés avec les journaux de mouvements.

A lire aussi

Un puzzle de grille pour départager les modèles

L’épreuve du jour s’appelait le Word Gem Puzzle. Les modèles devaient écrire du code capable de se connecter à un serveur TCP, puis de jouer à un jeu de tuiles coulissantes sur une grille allant de 10×10 à 30×30 cases. L’objectif était de former des mots en anglais sur les lignes horizontales ou verticales.

Interface DeepSeek DeepThink R1, compétition modèles IA code — Photo : Matheus Bertelli (pexels)

Le système de score pénalise les mots courts : un mot de cinq lettres coûte un point, un mot de trois lettres en coûte trois. Les mots de sept lettres ou plus rapportent leur longueur moins six. Ce mécanisme visait à décourager les stratégies de réclamation systématique de petits mots courants.

Les grandes grilles se sont avérées décisives. Sur un plateau 30×30, les mots-graines placés initialement avaient presque tous été dispersés par le brassage, rendant le déplacement actif de tuiles indispensable pour marquer des points.

Kimi K2.6 en tête, deux modèles chinois dans le podium

Kimi K2.6 a terminé avec 22 points de match et un bilan de sept victoires, une défaite et aucun nul, pour un total cumulé de 77 points de score. MiMo V2-Pro de Xiaomi a pris la deuxième place avec 20 points de match, suivi de GPT-5.5 à la troisième place. Claude Opus 4.7 a fini cinquième, Gemini Pro 3.1 sixième.

La stratégie de Kimi reposait sur une boucle gloutonne : évaluer chaque mouvement possible, exécuter celui qui ouvre le plus de mots positifs, puis recommencer. Ce comportement présentait des défauts sur les petites grilles, notamment un oscillation stérile du curseur vide entre deux cases, mais il s’est montré productif à grande échelle quand les autres modèles n’avaient plus rien à réclamer.

Interface ChatGPT sur écran, comparaison modèles IA — Photo : Matheus Bertelli (pexels)

MiMo V2-Pro a adopté une approche inverse : aucun déplacement de tuile, mais un balayage immédiat de la grille initiale pour revendiquer d’un seul envoi tous les mots de sept lettres ou plus encore visibles. Cette méthode était très efficace quand les mots-graines étaient intacts, et totalement inopérante sur les grandes grilles.

Ce que révèlent les cas extrêmes

À l’autre bout du classement, les résultats sont instructifs. DeepSeek V4 a envoyé des données malformées à chaque round, ne marquant aucun point utile. Le modèle Muse a récolté un score cumulé de -15 309 points en réclamant systématiquement tous les mots courts qu’il détectait, sans tenir compte des pénalités prévues par les règles.

L’auteur du concours note que Muse avait manifestement lu les instructions de façon partielle, puis exécuté cette lecture partielle avec une complétude totale. Il souligne que ce type de comportement mérite attention pour quiconque déploie des modèles sur des tâches structurées avec pénalités.

Un écart qui se resserre, sans effacer les nuances

L’organisateur précise lui-même que cette épreuve mesure la capacité à écrire du code fonctionnel sous contrainte de temps réel, pas le raisonnement en contexte long ni la génération de code à partir de spécifications complexes. Un seul défi ne remet pas en cause les classements généraux.

Sur l’indice Artificial Analysis Intelligence Index, Kimi K2.6 obtient un score de 54, GPT-5.5 de 60 et Claude de 57. L’écart reste mesurable. Kimi K2.6 est disponible en open-weights depuis Moonshot AI, une startup fondée en 2023.

Source : Thinkpol

Kimi K2.6 écrase Claude et GPT-5.5 dans un tournoi de code en temps réel

Un puzzle de grille pour départager les modèles

Kimi K2.6 en tête, deux modèles chinois dans le podium

Ce que révèlent les cas extrêmes

Un écart qui se resserre, sans effacer les nuances

Laisser une note Annuler la réponse

Notre partenaire

Réseaux sociaux

A ne pas louper !

Prix sacrifié pour le Black Friday sur ces produits Laifen

Black Friday : économisez 40% sur ces sèche-cheveux design de chez Laifen

Black Friday : ces brosses à dents connectées sont en promo exceptionnelle jusqu’à 40% de réduction dès aujourd’hui

D'autres articles intéressants

Un puzzle de grille pour départager les modèles

Kimi K2.6 en tête, deux modèles chinois dans le podium

Ce que révèlent les cas extrêmes

Un écart qui se resserre, sans effacer les nuances

Laisser une note Annuler la réponse

Notre partenaire

Réseaux sociaux

Vous aimerez aussi ...

OPPO A96 : Officiellement présenté par la marque

Xiaomi 15 Ultra : Voici tout ce que vous devez savoir sur le smartphone

Huawei P50 Pocket : une merveille de technologie

Vine pourrait faire son retour pour s’attaquer à TikTok

Prix sacrifié pour le Black Friday sur ces produits Laifen

Black Friday : économisez 40% sur ces sèche-cheveux design de chez Laifen

Black Friday : ces brosses à dents connectées sont en promo exceptionnelle jusqu’à 40% de réduction dès aujourd’hui