Es genial ver que @Apple ha presentado su propio modelo de lenguaje, DCLM-7B. A la luz de esto, @polyverse_ai ha comenzado la integración de los conjuntos de datos y herramientas DCLM de @Apple, preparando el terreno para futuros avances en la optimización de conjuntos de datos de entrenamiento de IA para mejorar el rendimiento de los modelos de lenguaje. El DCLM-Baseline se estableció aplicando meticulosamente una serie de procedimientos de limpieza, filtrado y deduplicación a los datos en bruto de Common Crawl (DCLM-Pool).
🌐 Un modelo fundamental de 7 mil millones de parámetros, meticulosamente entrenado en 2,5 billones de tokens derivados de conjuntos de datos de acceso abierto.
📊 El entrenamiento involucró predominantemente datos en inglés, con una ventana de contexto que se extiende hasta 2048 tokens.
📈 El modelo integra datos de DCLM-BASELINE, StarCoder y ProofPile2.
🧠 Demuestra un rendimiento comparable al de modelos entrenados con conjuntos de datos propietarios, como Mistral.
🔬 El entrenamiento se realizó utilizando PyTorch dentro del marco de OpenLM.