很高興看到 @Apple 發佈了自己的語言模型 DCLM-7B。鑑於此,@polyverse_ai 開始整合 @Apple 的 DCLM 數據集和工具,爲未來優化 AI 訓練數據集以提升語言模型性能奠定基礎。DCLM-Baseline 是通過對原始 Common Crawl 數據(DCLM-Pool)進行一系列清理、過濾和去重程序而建立的。
🌐 這是一個基礎的 70 億參數模型,經過精心訓練,使用了從開放獲取數據集中提取的 2.50 萬億個標記。
📊 訓練主要涉及英語語言數據,且上下文窗口延伸至 2048 個標記。
📈 該模型整合了來自 DCLM-BASELINE、StarCoder 和 ProofPile2 的數據。
🧠 表現與基於專有數據集訓練的模型(如 Mistral)相當。
🔬 訓練是在 OpenLM 框架內使用 PyTorch 進行的。