素晴らしいことに、@Apple が独自の言語モデル DCLM-7B を発表しました。これを受けて、@polyverse_ai は @Apple の DCLM データセットとツールの統合を開始し、AI トレーニングデータセットの最適化による言語モデルのパフォーマンス向上に向けた今後の進展の基盤を築いています。DCLM-Baseline は、原データ Common Crawl (DCLM-Pool) に対して一連のクリーニング、フィルタリング、重複排除手続きを慎重に適用することで確立されました。
🌐 基礎となる70億パラメータモデルで、オープンアクセスデータセットから派生した2兆5000億トークンで慎重にトレーニングされました。
📊 トレーニングは主に英語データを使用し、コンテキストウィンドウは最大2048トークンに拡張されました。
📈 モデルは DCLM-BASELINE、StarCoder、ProofPile2 からのデータを統合しています。
🧠 専有データセットでトレーニングされたモデルと同等のパフォーマンスを示します。Mistral のような。
🔬 トレーニングは OpenLM フレームワーク内の PyTorch を使用して実施されました。