Atropos v0.3 теперь доступен!
Наша платформа RL Environments претерпела множество обновлений с версии v0.2 — вот некоторые основные моменты:
- Теперь Atropos можно использовать в качестве платформы для бенчмаркинга и оценки от @rogershijin, с нашим первым внешним бенчмарком Reward-Bench 2!
- Добавлен Reasoning Gym, внешний репозиторий environment gym, перенесенный в Atropos с более чем 100 задачами на рассуждение от @neurosp1ke и его друзей.
- @max_paperclips интегрировал тренировочный лагерь по рассуждению от @intern_lm, добавив более 1000 новых задач на рассуждение для RL.
- @dmayhem93, ведущий инженер Atropos, добавил десятки исправлений ошибок и других улучшений надежности и совместимости, улучшенную поддержку многосредовости и CI/CD.
- Многие среды хакатона Atropos были объединены в /environments/community — перечисление их всех заняло бы большую часть экранного пространства, но вот некоторые основные моменты:
VR-CLI от @JakeABoggs, Philosophy RLAIF, Adaptive LLM Teachers, WebVoyager, дизайн белков от @hallerite, среда маршрутизации моделей от @gabinfay, несколько сред для доказательств в Lean, арена catbot, pokemon showdown, poker, helpful doctors, санскритская поэзия от @khoomeik и многое другое!
- Другие примечательные официально поддерживаемые новые среды включают:
Answer format following environment
Pydantic to JSON environment, перенесенная из работы @MatternJustus
Instruction Following, перенесенная из работы @natolambert и @allen_ai
Letter Counting
- 47 совершенно новых контрибьюторов!
Ознакомьтесь с полным списком изменений здесь: https://t.co/4mI4ZcnZiS