Atropos v0.3がリリースされました!
当社のRL環境フレームワークはv0.2以降、多くのアップグレードが行われました。主なハイライトは以下のとおりです。
- Atroposは、@rogershijinによってベンチマークおよび評価フレームワークとして使用できるようになりました。最初の外部ベンチマークであるReward-Bench 2が登場!
- @neurosp1keとその仲間たちによって、100以上の推論タスクを備えた外部環境ジムリポジトリであるReasoning GymがAtroposに移植されました。
- @max_paperclipsが@intern_lmの推論ブートキャンプを統合し、RL用に1000以上の新しい推論タスクを追加しました。
- Atroposの主任エンジニアである@dmayhem93が、多数のバグ修正、その他の信頼性と互換性の向上、マルチ環境のサポート改善、およびCI/CDを追加しました。
- Atroposハッカソン環境の多くが/environments/communityにマージされました。すべてをリストすると画面のほとんどを占めてしまいますが、主なハイライトは次のとおりです。
@JakeABoggsによるVR-CLI、Philosophy RLAIF、Adaptive LLM Teachers、WebVoyager、@halleriteによるタンパク質設計、@gabinfayによるモデルルーティング環境、リーン証明に関する複数の環境、catbot arena、pokemon showdown、ポーカー、helpful doctors、@khoomeikによるサンスクリット詩など、盛りだくさんです!
- その他、注目すべき公式サポートされている新しい環境は次のとおりです。
Answer format following environment
@MatternJustusの作業から移植されたPydantic to JSON environment
@natolambertと@allen_aiの作業から移植されたInstruction Following
Letter Counting
- 47人の新しい貢献者!
完全な変更ログはこちらをご覧ください:https://t.co/4mI4ZcnZiS