CAIBA já está estabelecendo o padrão 📊
Desde o lançamento no início deste mês:
• CAIA Benchmark v0.2 expandido: 40 → 60 tarefas
• Os resultados mostram que o Tooling é mais eficaz do que o prompting
• A tokenomics atrapalha a maioria dos modelos
Em breve:
• Expandindo de 60 para 80 tarefas no CAIA v0.3
• Adicionando mais agentes criptográficos (não apenas LLMs)
Todos os resultados estão no blog completo vinculado abaixo