Harika bir şekilde, @Apple'ın kendi dil modeli olan DCLM-7B'yi açıkladığını görmek güzel. Bu doğrultuda, @polyverse_ai, @Apple'ın DCLM veri kümeleri ve araçlarının entegrasyonunu başlattı ve dil modeli performansını artırmak için yapay zeka eğitim veri setlerini optimize etme konusunda gelecekteki ilerlemeler için zemin hazırladı. DCLM-Baseline, ham Common Crawl verilerine (DCLM-Pool) titizlikle temizleme, filtreleme ve yinelenen işlemler uygulayarak oluşturuldu.
🌐 Açık erişim veri setlerinden elde edilen 2,5 trilyon belirteç üzerinde titizlikle eğitilmiş temel 7 milyar parametreli bir model.
📊 Eğitim çoğunlukla İngilizce dil verilerini içeriyordu ve bağlam penceresi 2048 belirteceğe kadar uzanıyordu.
📈 Model, DCLM-BASELINE, StarCoder ve ProofPile2'den veri entegre ediyor.
🧠 Mistral gibi özel veri kümelerinde eğitilen modellerle eşdeğer performans gösteriyor.
🔬 Eğitim, PyTorch'u kullanarak OpenLM çerçevesi içinde gerçekleştirildi.