CAIBA 已经在设定标准 📊自本月早些时候推出以来:• CAIA Benchmark v0.2 扩展:40 → 60 个任务• 结果显示工具比提示更有效• 代币经济学让大多数模型陷入困境即将推出:• 在 CAIA v0.3 中从 60 个任务扩展到 80 个任务• 添加更多加密代理(不仅仅是 LLM)所有结果都在下面链接的完整博客中