¡Atropos v0.3 ya está disponible!
Nuestro marco de trabajo de entornos RL ha experimentado muchas actualizaciones desde la v0.2; algunos aspectos destacados:
- Atropos ahora puede ser utilizado como un marco de trabajo de evaluación comparativa y evaluaciones por @rogershijin, ¡con nuestro primer benchmark externo, Reward-Bench 2!
- Se añadió el Reasoning Gym, un repositorio de gimnasio de entorno externo portado a Atropos con más de 100 tareas de razonamiento por @neurosp1ke y amigos.
- @max_paperclips integró el bootcamp de razonamiento de @intern_lm, añadiendo más de 1000 tareas nuevas de razonamiento para RL.
- @dmayhem93, el ingeniero principal de Atropos, añadió docenas de correcciones de errores y otras mejoras de fiabilidad y compatibilidad, mejor soporte para multi-entorno y CI/CD.
- Muchos de los entornos del hackathon de Atropos se han fusionado en /environments/community; enumerarlos todos ocuparía la mayor parte del espacio de la pantalla, pero algunos aspectos destacados:
VR-CLI por @JakeABoggs, Philosophy RLAIF, Adaptive LLM Teachers, WebVoyager, diseño de proteínas por @hallerite, un entorno de enrutamiento de modelos por @gabinfay, múltiples en lean proving, el catbot arena, pokemon showdown, poker, helpful doctors, poesía sánscrita por @khoomeik y ¡mucho más!
- Otros entornos nuevos notables con soporte oficial incluyen:
Answer format following environment
Entorno Pydantic to JSON portado del trabajo de @MatternJustus
Instruction Following portado del trabajo de @natolambert y @allen_ai
Letter Counting
- ¡47 nuevos contribuyentes!
Consulta el registro de cambios completo aquí: https://t.co/4mI4ZcnZiS