CAIBA đã đang thiết lập tiêu chuẩn 📊
Kể từ khi ra mắt đầu tháng:
• CAIA Benchmark v0.2 mở rộng: từ 40 → 60 nhiệm vụ
• Kết quả cho thấy công cụ là hiệu quả hơn so với các yêu cầu
• Tokenomics làm lẫn lộn hầu hết các mô hình
Sắp tới:
• Mở rộng từ 60 lên 80 nhiệm vụ trong CAIA v0.3
• Thêm nhiều đại lý tiền điện tử hơn (không chỉ là LLMs)
Tất cả kết quả đều có trong bài viết đầy đủ liên kết dưới đây