很高興看到 @Apple 發佈了自己的語言模型 DCLM-7B。鑑於此，@polyverse_ai 開始整合 @Apple 的 DCLM 數據集和工具，爲未來優化 AI 訓練數據集以提升語言模型性能奠定基礎。DCLM-Baseline 是通過對原始 Common Crawl 數據（DCLM-Pool）進行一系列清理、過濾和去重程序而建立的。 🌐 這是一個基礎的 70 億參數模型，經過精心訓練，使用了從開放獲取數據集中提取的 2.50 萬億個標記。 📊 訓練主要涉及英語語言數據，且上下文窗口延伸至 2048 個標記。 📈 該模型整合了來自 DCLM-BASELINE、StarCoder 和 ProofPile2 的數據。 🧠 表現與基於專有數據集訓練的模型（如 Mistral）相當。 🔬 訓練是在 OpenLM 框架內使用 PyTorch 進行的。 <img src="https://static.sosovalue.com/sosovalue/2025/03/08/92a9b4a9-1edf-44a6-aeac-b0499ae1e2ab.png">