Ótimo ver que a @Apple revelou seu próprio modelo de linguagem, DCLM-7B. À luz disso, a @polyverse_ai começou a integração dos conjuntos de dados e ferramentas DCLM da @Apple, preparando o terreno para futuros avanços na otimização de conjuntos de dados de treinamento de IA para melhorar o desempenho dos modelos de linguagem. O DCLM-Baseline foi estabelecido aplicando meticulosamente uma série de procedimentos de limpeza, filtragem e deduplicação aos dados brutos do Common Crawl (DCLM-Pool).
🌐 Um modelo fundamental de 7 bilhões de parâmetros, treinado meticulosamente em 2,5 trilhões de tokens derivados de conjuntos de dados de acesso aberto.
📊 O treinamento envolveu predominantemente dados em inglês, com uma janela de contexto que se estende até 2048 tokens.
📈 O modelo integra dados do DCLM-BASELINE, StarCoder e ProofPile2.
🧠 Demonstra desempenho equivalente ao de modelos treinados em conjuntos de dados proprietários, como o Mistral.
🔬 O treinamento foi realizado usando PyTorch dentro da estrutura OpenLM.