很高兴看到 @Apple 发布了自己的语言模型 DCLM-7B。鉴于此,@polyverse_ai 开始整合 @Apple 的 DCLM 数据集和工具,为未来优化 AI 训练数据集以提升语言模型性能奠定基础。DCLM-Baseline 是通过对原始 Common Crawl 数据(DCLM-Pool)进行一系列清理、过滤和去重程序而建立的。
🌐 这是一个基础的 70 亿参数模型,经过精心训练,使用了从开放获取数据集中提取的 2.50 万亿个标记。
📊 训练主要涉及英语语言数据,且上下文窗口延伸至 2048 个标记。
📈 该模型整合了来自 DCLM-BASELINE、StarCoder 和 ProofPile2 的数据。
🧠 表现与基于专有数据集训练的模型(如 Mistral)相当。
🔬 训练是在 OpenLM 框架内使用 PyTorch 进行的。