CAIBA 已經在設定標準 📊自本月早些時候推出以來:• CAIA Benchmark v0.2 擴展:40 → 60 個任務• 結果顯示工具比提示更有效• 代幣經濟學讓大多數模型陷入困境即將推出:• 在 CAIA v0.3 中擴展從 60 至 80 個任務• 增加更多加密代理(不僅僅是 LLM)所有結果都在以下鏈接的完整博客中