
Lors de la 12e édition d’un concours de programmation en temps réel, le modèle Kimi K2.6 de la startup chinoise Moonshot AI a terminé premier d’un classement à dix participants. Claude Opus 4.7, GPT-5.5 et Gemini Pro 3.1 ont tous fini derrière les deux premières places.
Ce concours, organisé et arbitré de façon indépendante, consiste à faire jouer des modèles de langage à un puzzle de lettres sur grille, en temps réel, avec un système de notation objectif. Les résultats sont calculés automatiquement et publiés avec les journaux de mouvements.
A lire aussi
- La Chine dévoile une IA encore moins chère que DeepSeek
- ChatGPT : sa plus grande mise à jour GPT-5 pourrait arriver bien plus tôt que prévu
Un puzzle de grille pour départager les modèles
L’épreuve du jour s’appelait le Word Gem Puzzle. Les modèles devaient écrire du code capable de se connecter à un serveur TCP, puis de jouer à un jeu de tuiles coulissantes sur une grille allant de 10×10 à 30×30 cases. L’objectif était de former des mots en anglais sur les lignes horizontales ou verticales.

Le système de score pénalise les mots courts : un mot de cinq lettres coûte un point, un mot de trois lettres en coûte trois. Les mots de sept lettres ou plus rapportent leur longueur moins six. Ce mécanisme visait à décourager les stratégies de réclamation systématique de petits mots courants.
Les grandes grilles se sont avérées décisives. Sur un plateau 30×30, les mots-graines placés initialement avaient presque tous été dispersés par le brassage, rendant le déplacement actif de tuiles indispensable pour marquer des points.
Kimi K2.6 en tête, deux modèles chinois dans le podium
Kimi K2.6 a terminé avec 22 points de match et un bilan de sept victoires, une défaite et aucun nul, pour un total cumulé de 77 points de score. MiMo V2-Pro de Xiaomi a pris la deuxième place avec 20 points de match, suivi de GPT-5.5 à la troisième place. Claude Opus 4.7 a fini cinquième, Gemini Pro 3.1 sixième.
La stratégie de Kimi reposait sur une boucle gloutonne : évaluer chaque mouvement possible, exécuter celui qui ouvre le plus de mots positifs, puis recommencer. Ce comportement présentait des défauts sur les petites grilles, notamment un oscillation stérile du curseur vide entre deux cases, mais il s’est montré productif à grande échelle quand les autres modèles n’avaient plus rien à réclamer.

MiMo V2-Pro a adopté une approche inverse : aucun déplacement de tuile, mais un balayage immédiat de la grille initiale pour revendiquer d’un seul envoi tous les mots de sept lettres ou plus encore visibles. Cette méthode était très efficace quand les mots-graines étaient intacts, et totalement inopérante sur les grandes grilles.
Ce que révèlent les cas extrêmes
À l’autre bout du classement, les résultats sont instructifs. DeepSeek V4 a envoyé des données malformées à chaque round, ne marquant aucun point utile. Le modèle Muse a récolté un score cumulé de -15 309 points en réclamant systématiquement tous les mots courts qu’il détectait, sans tenir compte des pénalités prévues par les règles.
L’auteur du concours note que Muse avait manifestement lu les instructions de façon partielle, puis exécuté cette lecture partielle avec une complétude totale. Il souligne que ce type de comportement mérite attention pour quiconque déploie des modèles sur des tâches structurées avec pénalités.
Un écart qui se resserre, sans effacer les nuances
L’organisateur précise lui-même que cette épreuve mesure la capacité à écrire du code fonctionnel sous contrainte de temps réel, pas le raisonnement en contexte long ni la génération de code à partir de spécifications complexes. Un seul défi ne remet pas en cause les classements généraux.
Sur l’indice Artificial Analysis Intelligence Index, Kimi K2.6 obtient un score de 54, GPT-5.5 de 60 et Claude de 57. L’écart reste mesurable. Kimi K2.6 est disponible en open-weights depuis Moonshot AI, une startup fondée en 2023.
Source : Thinkpol

