Thật tuyệt khi thấy rằng @Apple đã công bố mô hình ngôn ngữ riêng của mình, DCLM-7B. Trong bối cảnh này, @polyverse_ai đã bắt đầu tích hợp các tập dữ liệu và công cụ DCLM của @Apple, tạo nền tảng cho những tiến bộ trong việc tối ưu hóa tập dữ liệu huấn luyện AI nhằm nâng cao hiệu suất của mô hình ngôn ngữ. DCLM-Baseline đã được thiết lập bằng cách cẩn thận áp dụng một loạt quy trình làm sạch, lọc và loại bỏ dữ liệu trùng lặp từ dữ liệu thô Common Crawl (DCLM-Pool).
🌐 Một mô hình nền tảng với 7 tỷ tham số, được huấn luyện một cách cẩn thận trên 2,5 nghìn tỷ token lấy từ các tập dữ liệu truy cập mở.
📊 Việc huấn luyện chủ yếu bao gồm dữ liệu ngôn ngữ tiếng Anh, với một cửa sổ ngữ cảnh kéo dài lên đến 2048 token.
📈 Mô hình tích hợp dữ liệu từ DCLM-BASELINE, StarCoder và ProofPile2.
🧠 Thể hiện hiệu suất tương đương với các mô hình được huấn luyện trên các tập dữ liệu độc quyền, chẳng hạn như Mistral.
🔬 Việc huấn luyện được thực hiện bằng PyTorch trong khuôn khổ OpenLM.