Приятно видеть, что @Apple представила свою языковую модель DCLM-7B. В связи с этим @polyverse_ai начала интеграцию наборов данных и инструментов DCLM от @Apple, что создает предпосылки для будущих достижений в оптимизации наборов данных для обучения ИИ с целью улучшения работы языковых моделей. DCLM-Baseline был создан путем тщательного применения серии процедур очистки, фильтрации и дедупликации к сырым данным Common Crawl (DCLM-Pool).
🌐 Основная модель с 7 миллиардами параметров, тщательно обученная на 2.5 триллионах токенов, полученных из открытых наборов данных.
📊 Обучение в основном проводилось на данных на английском языке, с контекстным окном до 2048 токенов.
📈 Модель интегрирует данные из DCLM-BASELINE, StarCoder и ProofPile2.
🧠 Демонстрирует производительность на уровне моделей, обученных на проприетарных наборах данных, таких как Mistral.
🔬 Обучение проводилось с использованием PyTorch в рамках OpenLM.