🚀 Confira os últimos resultados de benchmark da Artificial Analysis!
- Grok 4 está liderando com um índice de IA de 73, superando OpenAI o3 (70), Google Gemini 2.5 Pro (70), Anthropic Claude 4 Opus (64) e DeepSeek R1 0528 (68). 🥇
- Em termos de preço, o Grok 4 corresponde ao Grok 3 a $3,15 por milhão de tokens de entrada/saída ($0,75 para entrada em cache). Isso está em pé de igualdade com o Claude 4 Sonnet, mas é mais caro que o Gemini 2.5 Pro ($1,25 para <200k tokens) e o o3 ($2 após a recente queda de preço). 💸
- Grok não está apenas vencendo em IA; também lidera os índices de programação e matemática! 📊📚
- Atingiu uma pontuação recorde de GPQA Diamond de 88%, superando o recorde anterior do Gemini de 84%! 🌟
- No Humanity's Last Exam, obteve uma pontuação de 24%, superando o recorde anterior do Gemini de 21%. Apenas um lembrete: nossos benchmarks usam um conjunto de dados de janeiro de 2025 sem nenhuma ferramenta. 🧠📝
- Empatado em pontuações máximas em MMLU-Pro (87%) e AIME 2024 (94%). 🎉
- A velocidade de saída de tokens é de 75 tokens/segundo — mais lenta que o o3 (188), Gemini (142) e Claude Sonnet Thinking (85), mas mais rápida que o Claude Opus Thinking (66). ⚡️
- Janela de contexto? Sólidos 256k tokens — menos que o milhão do Gemini, mas ainda melhor que as versões Claude e R1 (todos com 200k ou menos). 🪄
- Suporta entrada de texto e imagem por enquanto; áudio ainda não está na mistura. 🔊❌
- Chamadas de função e saída estruturada? Pode apostar! 📞✨
#AI #BenchmarkResults #Grok4