
Depuis la sortie de GPT-4.1, des utilisateurs de ChatGPT ont remarqué que le chatbot évoquait régulièrement des gobelins et des gremlins, même dans des conversations où ces références n’avaient aucune pertinence.
OpenAI a mené une investigation et publié un rapport détaillé sur son site pour expliquer l’origine de ce comportement. La réponse pointe vers un mécanisme d’apprentissage par renforcement et un profil de personnalité spécifique.
Un profil ‘nerdy’ à l’origine du problème
ChatGPT propose plusieurs profils de personnalité permettant d’adapter le ton des réponses. L’un d’eux, intitulé ‘nerdy’, était associé à un registre jugé typique des passionnés de culture geek.
Selon les données d’OpenAI, ce profil ne représentait que 2,5 % de l’ensemble des requêtes adressées au modèle. Pourtant, il était à l’origine de 66,7 % de toutes les mentions de gobelins enregistrées. Un déséquilibre qui a alerté les équipes techniques.
La contamination par apprentissage par renforcement
Le problème ne s’est pas limité au profil ‘nerdy’. OpenAI explique que les comportements récompensés lors de l’entraînement ne restent pas nécessairement confinés au contexte dans lequel ils ont été appris.
Une fois qu’un style ou un tic de langage est positivement évalué, les phases d’entraînement suivantes peuvent le propager à d’autres profils de personnalité, notamment si ces sorties sont réutilisées dans les données de réglage fin supervisé ou dans les données de préférence. C’est précisément ce qui s’est produit avec les gobelins : une référence récompensée dans un contexte précis a fini par apparaître dans des échanges sans rapport.

Ce phénomène illustre une difficulté connue dans l’entraînement des grands modèles de langage : contrôler la portée exacte d’un signal de récompense reste complexe, même avec des conditions d’activation bien définies.
La correction apportée par OpenAI
Pour mettre fin à ce comportement, OpenAI a supprimé le profil de personnalité ‘nerdy’ en mars. La décision a été prise après que l’investigation a confirmé le lien direct entre ce profil et la propagation des références aux gobelins.
Les modèles les plus récents ont également reçu des instructions explicites pour ne mentionner les gobelins ou les gremlins que lorsque le contexte le justifie réellement. OpenAI n’a pas précisé si d’autres profils de personnalité ont été modifiés ou supprimés dans la même période.
Un signal sur la maîtrise des comportements émergents
Cet épisode, anecdotique en apparence, soulève une question plus sérieuse : dans quelle mesure les équipes d’OpenAI contrôlent-elles les comportements qui émergent lors de l’entraînement de leurs modèles ?
Le fait qu’un biais aussi visible ait pu se propager depuis GPT-4.1 et nécessiter un rapport public pour être expliqué montre que certains effets de bord restent difficiles à anticiper avant déploiement. OpenAI a choisi la transparence en documentant précisément la chaîne causale, ce qui constitue une démarche peu courante dans le secteur.
Source : Mashable

