Atropos v0.3 est maintenant disponible !
Notre framework d’environnements RL a connu de nombreuses améliorations depuis la v0.2 : voici quelques points saillants :
- Atropos peut désormais être utilisé comme framework d’évaluation et de benchmarking par @rogershijin, avec notre premier benchmark externe, Reward-Bench 2 !
- Ajout du Reasoning Gym, un référentiel de gym d’environnement externe porté dans Atropos avec plus de 100 tâches de raisonnement par @neurosp1ke et ses amis.
- @max_paperclips a intégré le bootcamp de raisonnement de @intern_lm, ajoutant plus de 1 000 nouvelles tâches de raisonnement pour RL.
- @dmayhem93, l’ingénieur principal d’Atropos, a ajouté des dizaines de corrections de bugs et d’autres améliorations de fiabilité et de compatibilité, une meilleure prise en charge du multi-environnement et CI/CD.
- De nombreux environnements de hackathon Atropos ont été fusionnés dans /environments/community : les énumérer tous prendrait la majeure partie de l’espace à l’écran, mais voici quelques points saillants :
VR-CLI par @JakeABoggs, Philosophy RLAIF, Adaptive LLM Teachers, WebVoyager, la conception de protéines par @hallerite, un environnement de routage de modèle par @gabinfay, plusieurs sur la preuve lean, l’arène catbot, pokemon showdown, poker, helpful doctors, la poésie sanskrite par @khoomeik et bien plus encore !
- Les autres nouveaux environnements officiellement pris en charge notables incluent :
Answer format following environment
Pydantic to JSON environment porté du travail de @MatternJustus
Instruction Following porté du travail de @natolambert et @allen_ai
Letter Counting
- 47 nouveaux contributeurs !
Consultez le changelog complet ici : https://t.co/4mI4ZcnZiS