🚀 Artificial Analysisからの最新ベンチマーク結果をチェック!
- Grok 4は、AIインデックス73でトップを走り、OpenAI o3(70)、Google Gemini 2.5 Pro(70)、Anthropic Claude 4 Opus(64)、DeepSeek R1 0528(68)を上回っています。🥇
- 価格面では、Grok 4はGrok 3と同額の100万入力/出力トークンあたり$3.15(キャッシュされた入力の場合は$0.75)です。これはClaude 4 Sonnetと同等ですが、Gemini 2.5 Pro(20万トークン未満で$1.25)およびo3(最近の値下げ後$2)よりも高価です。💸
- GrokはAIで勝利しているだけでなく、プログラミングと数学のインデックスでもトップです!📊📚
- GPQA Diamondスコアで88%という記録を達成し、Geminiの以前の最高記録である84%を上回りました!🌟
- Humanity's Last Examでは、24%のスコアを獲得し、Geminiの以前の記録である21%を上回りました。念のためですが、当社のベンチマークでは、ツールを使用せずに2025年1月からのデータセットを使用しています。🧠📝
- MMLU-Pro(87%)とAIME 2024(94%)でトップスコアを記録しました。🎉
- トークン出力速度は75 tokens/secで、o3(188)、Gemini(142)、Claude Sonnet Thinking(85)よりも遅いですが、Claude Opus Thinking(66)よりは速いです。⚡️
- コンテキストウィンドウは?堅実な256kトークンで、Geminiの100万トークンよりは少ないですが、ClaudeのバージョンやR1(すべて200k以下)よりも優れています。🪄
- 現在、テキストと画像の入力をサポートしています。音声はまだ対応していません。🔊❌
- 関数呼び出しと構造化された出力?もちろんです!📞✨
#AI #BenchmarkResults #Grok4