Atropos v0.3 yayınlandı!
RL Ortamları çerçevemiz v0.2'den beri birçok yükseltme gördü - bazı önemli noktalar:
- Atropos artık @rogershijin tarafından bir kıyaslama ve değerlendirme çerçevesi olarak kullanılabilir ve ilk harici kıyaslamamız Reward-Bench 2!
- @neurosp1ke ve arkadaşları tarafından 100'den fazla akıl yürütme göreviyle atropos'a aktarılan harici bir ortam gym deposu olan Reasoning Gym eklendi
- @max_paperclips, @intern_lm'in akıl yürütme eğitim kampını entegre ederek RL için 1000'den fazla yeni akıl yürütme görevi ekledi
- Atropos'un baş mühendisi @dmayhem93, düzinelerce hata düzeltmesi ve diğer güvenilirlik ve uyumluluk iyileştirmeleri, çoklu ortam için daha iyi destek ve CI/CD ekledi
- Atropos hackathon ortamlarının çoğu /environments/community'ye birleştirildi - hepsini listelemek ekran alanının çoğunu kaplardı, ancak bazı önemli noktalar:
@JakeABoggs tarafından VR-CLI, Philosophy RLAIF, Adaptive LLM Teachers, WebVoyager, @hallerite tarafından protein tasarımı, @gabinfay tarafından bir model yönlendirme ortamı, yalın kanıtlama üzerine birden fazla, catbot arenası, pokemon showdown, poker, yardımsever doktorlar, @khoomeik tarafından sanskrit şiiri ve çok daha fazlası!
- Diğer dikkate değer resmi olarak desteklenen yeni ortamlar şunları içerir:
Answer format following environment
@MatternJustus'un çalışmasından aktarılan Pydantic to JSON environment
@natolambert ve @allen_ai'nin çalışmalarından aktarılan Instruction Following
Letter Counting
- 47 yepyeni katkıda bulunan!
Tam değişiklik günlüğüne buradan göz atın: https://t.co/4mI4ZcnZiS