Grok-3, la (presque) meilleure IA du monde

xAI a présenté la dernière version de son modèle d'intelligence artificielle phare : Grok-3. L'IA d'Elon Musk surpasse GPT-4 et Gemini, mais pas 03.
"Smartest AI on Earth." C'est ainsi qu'Elon Musk qualifiait déjà, sans ego aucun, sa dernière IA moins de 24 heures avant son lancement officiel. Présenté ce mardi 18 février par le laboratoire xAI, Grok-3 surpasse effectivement les principaux LLM propriétaires du marché dans les benchmarks classiques mais aussi sur la partie raisonnement, cruciale pour le développement d'agents. Une petite victoire pour la jeune société xAI, créée il y a moins de deux ans.
Quatre modèles présentés
Pour l'occasion, xAI présente une famille complète adaptée à tous les usages. Grok-3 est capable de traiter du texte, de l'image et prochainement de l'audio avec un mode vocal similaire à GPT-4o (sans que l'on sache si ces capacités sont déléguées à un modèles STT et TTS). La version mini est orientée vitesse d'inférence et permet de générer très rapidement du texte. Enfin, plus intéressant, xAI présente une version de Grok optimisée pour le raisonnement, Grok-3 Reasoning, avec également une version mini plus rapide. Le modèle peut ainsi consacrer plus de temps de calcul à la résolution de problèmes difficiles, vérifiant ses résultats et explorant différentes approches.
xAI reste assez avare en détails techniques sur les différents modèles. On sait néanmoins que Grok-3 a été entraîné sur un cluster de plus de 200 000 GPU H100 interconnectés. Les capacités de raisonnement ont été initialement développées sur des problèmes mathématiques et de programmation avant de se généraliser à d'autres domaines. L'entreprise met également l'accent sur Deep Search, son propre système de recherche web intelligent.
Grok-3, un modèle SOTA
Grok-3 est dans les benchmarks, et comme l'annonçait Elon Musk, un modèle SOTA (state of the art). Sur le classement de la Chatbot Arena (note en aveugle des modèles par des utilisateurs) il atteint le score 1402, devant Gemini 2.0 Flash Thinking, Gemini 2.0 Pro ou encore GPT-4O et DeepSeek R1. Dans les tests spécialisés, Grok-3 domine largement la concurrence. En mathématiques (AIME'24), il atteint 52% contre 16% pour Claude 3.5 Sonnet et 9% pour GPT-4o. L'écart est encore plus marqué en sciences (GPQA) où Grok-3 atteint 75% contre 65% pour Gemini-2 Pro et DeepSeek-V3.
En programmation (LCB), il maintient son avance avec 57% contre 36% pour Claude 3.5 Sonnet et 34% pour GPT-4o. Les versions Reasoning creusent encore plus l'écart, avec des scores avoisinant les 85-95% là où les concurrents comme DeepSeek-R1 ou Gemini-2 Flash Thinking plafonnent autour de 70-80%. Même Grok-3 mini se montre compétitif, surpassant souvent les grands modèles de référence comme GPT-4o et rivaliserait avec Gemini-2 Pro sur plusieurs métriques.
Un membre du staff technique d'OpenAI a cependant relevé une omission importante dans la présentation de xAI : les performances de o3 n'apparaissaient pas dans les graphiques comparatifs. Une version corrigée du graphique montre qu'o3 obtient en réalité des scores supérieurs sur l'ensemble des benchmarks, avec 97% en mathématiques (AIME'24), 88% en sciences (GPQA) et 80% en programmation (LCB Oct-Feb).
O3 reste donc compétitif par rapport à Grok-3. Le meilleur modèle du monde oui, sauf en raisonnement.
Un abonnement pour l'accès au raisonnement
Les modèles de la famille Grok-3 seront déployés progressivement. La version web de Grok disponible sur grok.com (pas encore en Europe) bénéficiera des fonctionnalités les plus avancées et des mises à jour quotidiennes, tandis que l'application iOS, déjà disponible sur l'App Store, proposera une version plus limitée. Les abonnés Premium Plus sur X seront les premiers à avoir accès à Grok 3. Une offre premium baptisée "Super Grok" (30 dollars par mois environ) donnera accès aux capacités les plus avancées, notamment le mode raisonnement. L'inclusion de Grok-3 dans l'API de xAI, attendue dans les prochaines semaines, permettra enfin aux développeurs d'intégrer l'ensemble des modèles dans leurs applications.
Si l'équipe de xAI affiche une confiance débordante, les détails cruciaux - architecture, benchmarks comparatifs, méthodes de raisonnement - restent soigneusement dans l'ombre. Le calendrier de déploiement particulièrement agressif, avec des mises à jour quotidiennes et le lancement imminent de la fonctionnalité vocale, placera rapidement l'entreprise face à ses engagements. Les prochains mois seront déterminants pour évaluer si xAI peut effectivement s'imposer comme un acteur majeur de l'IA générative aux côtés des leaders établis du secteur.