🚀 Découvrez les derniers résultats de référence d'Artificial Analysis !
- Grok 4 est en tête avec un indice d'IA de 73, battant OpenAI o3 (70), Google Gemini 2,5 Pro (70), Anthropic Claude 4 Opus (64) et DeepSeek R1 0528 (68). 🥇
- En termes de prix, Grok 4 équivaut à Grok 3 à 3,15 $ par million de jetons d'entrée/sortie (0,75 $ pour l'entrée en cache). C'est comparable à Claude 4 Sonnet, mais plus cher que Gemini 2,5 Pro (1,25 $ pour <200k jetons) et o3 (2 $ après leur récente baisse de prix). 💸
- Grok ne se contente pas de gagner dans l'IA ; il est également en tête des indices de programmation et de mathématiques ! 📊📚
- Il a atteint un score record de GPQA Diamond de 88 %, dépassant le précédent sommet de Gemini de 84 % ! 🌟
- Dans Humanity's Last Exam, il a obtenu un score de 24 %, battant le précédent record de Gemini de 21 %. Petit rappel : nos benchmarks utilisent un ensemble de données de janvier 2025 sans aucun outil. 🧠📝
- A égalité pour les meilleurs scores dans MMLU-Pro (87 %) et AIME 2024 (94 %). 🎉
- La vitesse de sortie des jetons est de 75 jetons/seconde, plus lente que o3 (188), Gemini (142) et Claude Sonnet Thinking (85), mais plus rapide que Claude Opus Thinking (66). ⚡️
- Fenêtre contextuelle ? Un solide 256k jetons, moins que le million de Gemini, mais toujours mieux que les versions Claude et R1 (tous à 200k ou moins). 🪄
- Prend en charge l'entrée de texte et d'image pour l'instant ; l'audio n'est pas encore de la partie. 🔊❌
- Appels de fonction et sortie structurée ? Bien sûr ! 📞✨
#AI #BenchmarkResults #Grok4
[Odaily 星球日报]