Atropos phiên bản v0.3 đã ra mắt!
Framework RL Environments của chúng tôi đã có rất nhiều nâng cấp kể từ phiên bản v0.2 - một vài điểm nổi bật:
- Atropos giờ đây có thể được sử dụng làm framework đánh giá và chấm điểm chuẩn bởi @rogershijin, với điểm chuẩn bên ngoài đầu tiên của chúng tôi, Reward-Bench 2!
- Đã thêm Reasoning Gym, một kho môi trường gym bên ngoài được chuyển vào Atropos với hơn 100 nhiệm vụ suy luận bởi @neurosp1ke và những người bạn
- @max_paperclips đã tích hợp bootcamp suy luận của @intern_lm, thêm hơn 1000 nhiệm vụ suy luận mới cho RL
- @dmayhem93 kỹ sư trưởng của Atropos đã thêm hàng tá các bản sửa lỗi và các cải tiến về độ tin cậy và khả năng tương thích khác, hỗ trợ tốt hơn cho đa môi trường và CI/CD
- Nhiều môi trường hackathon Atropos đã được hợp nhất vào /environments/community - để liệt kê tất cả chúng sẽ chiếm phần lớn không gian màn hình, nhưng một vài điểm nổi bật:
VR-CLI của @JakeABoggs, Philosophy RLAIF, Adaptive LLM Teachers, WebVoyager, thiết kế protein của @hallerite, một môi trường định tuyến mô hình của @gabinfay, nhiều môi trường về chứng minh lean, đấu trường catbot, pokemon showdown, poker, helpful doctors, thơ sanskrit của @khoomeik và còn nhiều nữa!
- Các môi trường mới được hỗ trợ chính thức đáng chú ý khác bao gồm:
Answer format following environment
Môi trường Pydantic to JSON được chuyển từ công việc của @MatternJustus
Instruction Following được chuyển từ công việc của @natolambert và @allen_ai
Letter Counting
- 47 người đóng góp hoàn toàn mới!
Xem nhật ký thay đổi hoàn chỉnh tại đây: https://t.co/4mI4ZcnZiS