CAIBAは既に基準を設定しています📊今月初めのローンチ以降:• CAIA ベンチマーク v0.2 拡張:40 → 60 タスク• 結果はツールがプロンプティングよりも効果的であることを示しています• トークノミクスはほとんどのモデルを混乱させています近日公開:• CAIA v0.3で60から80タスクに拡張• より多くの暗号エージェントを追加(LLMだけでなく)すべての結果は以下にリンクされている完全なブログにあります