Grok vient de passer en mode bête sur tous les tableaux. Il a raflé quatre premières places en une seule journée.
Il a pris la tête du classement Pax Historia. Il a écrasé le 𝜏²-Bench Telecom pour l'utilisation d'outils agentiques. Il a dominé l’Alpha Arena Saison 1.5. Et il mène l’utilisation de jetons sur OpenRouter — à la fois sur les classements quotidiens et hebdomadaires.
Ce n'est pas un progrès incrémental. C'est une déclaration. Lorsqu'un modèle rafle plusieurs benchmarks de cette façon, l'écart de performance n'est plus subtil. Que vous suiviez la profondeur conversationnelle, l’automatisation des tâches ou les métriques de déploiement réel, la tendance est claire.
La concurrence s’intensifie rapidement.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
Grok vient de passer en mode bête sur tous les tableaux. Il a raflé quatre premières places en une seule journée.
Il a pris la tête du classement Pax Historia. Il a écrasé le 𝜏²-Bench Telecom pour l'utilisation d'outils agentiques. Il a dominé l’Alpha Arena Saison 1.5. Et il mène l’utilisation de jetons sur OpenRouter — à la fois sur les classements quotidiens et hebdomadaires.
Ce n'est pas un progrès incrémental. C'est une déclaration. Lorsqu'un modèle rafle plusieurs benchmarks de cette façon, l'écart de performance n'est plus subtil. Que vous suiviez la profondeur conversationnelle, l’automatisation des tâches ou les métriques de déploiement réel, la tendance est claire.
La concurrence s’intensifie rapidement.