CAIBAは既に基準を設定しています📊

今月初めのローンチ以降：
• CAIA ベンチマーク v0.2 拡張：40 → 60 タスク
• 結果はツールがプロンプティングよりも効果的であることを示しています
• トークノミクスはほとんどのモデルを混乱させています

近日公開：
• CAIA v0.3で60から80タスクに拡張
• より多くの暗号エージェントを追加（LLMだけでなく）

すべての結果は以下にリンクされている完全なブログにあります