CAIBA zaten standardı belirlemekte 📊
Bu ay başlayan projeden bu yana:
• CAIA Benchmark v0.2 genişletildi: 40 → 60 görev
• Sonuçlar, Tooling'in prompt'lardan daha etkili olduğunu gösteriyor
• Tokenomics çoğu modeli zorluyor
Yakında:
• CAIA v0.3'te 60'tan 80 göreve genişleme
• Daha fazla kripto ajan ekleme (sadece LLM'ler değil)
Tüm sonuçlar aşağıda bağlanmış olan tam blogda bulunmaktadır