🚀 ¡Echa un vistazo a los últimos resultados de referencia de Artificial Analysis!
- Grok 4 lidera el grupo con un índice de IA de 73, superando a OpenAI o3 (70), Google Gemini 2,5 Pro (70), Anthropic Claude 4 Opus (64) y DeepSeek R1 0528 (68). 🥇
- En cuanto al precio, Grok 4 iguala a Grok 3 con 3,15 $ por millón de tokens de entrada/salida (0,75 $ para la entrada en caché). Eso está a la par con Claude 4 Sonnet, pero es más caro que Gemini 2,5 Pro (1,25 $ por <200k tokens) y o3 (2 $ después de su reciente bajada de precio). 💸
- Grok no solo está ganando en IA; ¡también encabeza los índices de programación y matemáticas! 📊📚
- ¡Alcanzó una puntuación récord de GPQA Diamond del 88 %, superando el máximo anterior de Gemini del 84 %! 🌟
- En Humanity's Last Exam, obtuvo una puntuación del 24 %, superando el récord anterior de Gemini del 21 %. Solo un recordatorio: nuestros puntos de referencia utilizan un conjunto de datos de enero de 2025 sin ninguna herramienta. 🧠📝
- Empatado en las puntuaciones más altas en MMLU-Pro (87 %) y AIME 2024 (94 %). 🎉
- La velocidad de salida de tokens es de 75 tokens/seg, más lenta que o3 (188), Gemini (142) y Claude Sonnet Thinking (85), pero más rápida que Claude Opus Thinking (66). ⚡️
- ¿Ventana de contexto? Unos sólidos 256k tokens, menos que el millón de Gemini, pero aún mejor que las versiones de Claude y R1 (todos con 200k o menos). 🪄
- Admite entrada de texto e imagen por ahora; el audio aún no está en la mezcla. 🔊❌
- ¿Llamadas de función y salida estructurada? ¡Por supuesto! 📞✨
#AI #BenchmarkResults #Grok4