CAIBA уже устанавливает стандарт 📊
С момента запуска начального месяца:
• CAIA Benchmark v0.2 расширен: 40 → 60 задач
• Результаты показывают, что инструменты более эффективны, чем промпты
• Токеномика затрудняет большинство моделей
Скоро:
• Расширение от 60 до 80 задач в CAIA v0.3
• Добавление больше криптовалютных агентов (не только LLM)
Все результаты представлены в полной блог-посте, ссылка на которую приведена ниже