CAIBA ya está estableciendo el estándar 📊
Desde su lanzamiento a principios de este mes:
• CAIA Benchmark v0.2 ampliado: 40 → 60 tareas
• Los resultados muestran que Tooling es más efectivo que prompting
• La tokenomics hace tropezar a la mayoría de los modelos
Próximamente:
• Expansión de 60 a 80 tareas en CAIA v0.3
• Adición de más crypto agents (no solo LLMs)
Todos los resultados están en el blog completo enlazado a continuación