很高兴看到 @Apple 发布了自己的语言模型 DCLM-7B。鉴于此，@polyverse_ai 开始整合 @Apple 的 DCLM 数据集和工具，为未来优化 AI 训练数据集以提升语言模型性能奠定基础。DCLM-Baseline 是通过对原始 Common Crawl 数据（DCLM-Pool）进行一系列清理、过滤和去重程序而建立的。 🌐 这是一个基础的 70 亿参数模型，经过精心训练，使用了从开放获取数据集中提取的 2.50 万亿个标记。 📊 训练主要涉及英语语言数据，且上下文窗口延伸至 2048 个标记。 📈 该模型整合了来自 DCLM-BASELINE、StarCoder 和 ProofPile2 的数据。 🧠 表现与基于专有数据集训练的模型（如 Mistral）相当。 🔬 训练是在 OpenLM 框架内使用 PyTorch 进行的。 <img src="https://static.sosovalue.com/sosovalue/2025/03/08/92a9b4a9-1edf-44a6-aeac-b0499ae1e2ab.png">