GPT-5.5 « 9,7T paramètres » réévalué : révisé à environ 1,5T

Selon la surveillance de Beating, les chercheurs en IA Lawrence Chan et Benno Sturgeon ont publié une revue de l’article du scientifique en chef de Pine AI, Li Bojie, intitulé « Enquêtes sur la connaissance incompressible : estimation du nombre de paramètres des grands modèles de langage boîte noire basé sur la capacité factuelle ».
L’article original estimait que GPT-5.5 comptait environ 9,7T, Claude Opus 4.7 environ 4,0T, et o1 environ 3,5T en utilisant 1 400 questions de trivia pour « peser » les modèles à source fermée.
Les examinateurs pensent que, bien que l’approche elle-même soit précieuse, les chiffres initiaux ont été considérablement gonflés en raison des critères de notation et de la qualité des questions.
Le problème principal réside dans le « score plancher ».
L’article original divisait les questions en sept niveaux de difficulté, et lorsqu’un modèle répondait trop souvent incorrectement à un certain niveau, le score pouvait théoriquement devenir négatif ; cependant, le code ramenait en réalité le score minimum pour chaque niveau à 0.
Cela a gonflé l’écart de performance des modèles de pointe sur des questions difficiles et a encore augmenté le nombre de paramètres inférés.
L’article affirme que cela n’a pas été traité de cette manière, mais le code et les résultats publiés utilisaient cette méthode.
Après avoir supprimé le « score plancher », la pente d’ajustement est passée de 6,79 à 3,56.
Cette pente peut être comprise comme « pour chaque point d’augmentation du score, combien la croissance en paramètres est traduite » ; une pente plus petite indique que la même différence de score ne correspond plus à une différence de paramètres aussi exagérée.
La valeur R² est tombée de 0,917 à 0,815, ce qui indique que la courbe d’ajustement « score en nombre de paramètres » n’est pas aussi stable que dans l’article original.
L’intervalle de prédiction à 90 % s’est élargi de 3,0 fois à 5,7 fois, suggérant une marge d’erreur plus large et que les chiffres ponctuels ne doivent pas être pris au sérieux.
La revue a également souligné que 131 questions sur 1 400 présentaient des ambiguïtés ou des réponses incorrectes, représentant 9,4 %.
Les problèmes étaient principalement concentrés dans les questions difficiles, utilisées pour différencier des modèles à source fermée de pointe comme GPT-5.5 et Claude Opus 4.7.
Selon leurs critères révisés, GPT-5.5 a été réduit de 9659B à 1458B dans l’article original, avec un intervalle de prédiction à 90 % de 256B à 8311B ;
Claude Opus 4.7 a été réduit de 4042B à 1132B ;
et GPT-5 a été réduit de 4088B à 1330B.
Les examinateurs ont également souligné que 1,5T ne devrait pas être considéré comme le vrai nombre de paramètres pour GPT-5.5.
Une conclusion plus précise est que cette « méthode de pesée par trivia » est très sensible aux détails de notation et à la qualité des questions, et que des chiffres comme 9,7T ne peuvent pas être utilisés directement comme mesure de poids pour des modèles à source fermée.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler