Parakeet-TDT 0.6B V2 của NVIDIA đã ra mắt để thay đổi cách chúng ta xử lý chuyển đổi giọng nói thành văn bản.
Được xây dựng trên kiến trúc FastConformer với bộ giải mã TDT, mô hình hiệu suất cao này xử lý âm thanh tiếng Anh dài — lên đến 24 phút — với độ chính xác ấn tượng. Nó giữ nguyên dấu câu, chữ hoa và cung cấp dấu thời gian từng từ, rất lý tưởng để phiên âm các cuộc trò chuyện, phỏng vấn, cuộc họp và thậm chí cả các bản ghi âm có tiếng ồn.
Chúng tôi vừa phát hành hướng dẫn từng bước cho bạn cách chạy mô hình này cục bộ hoặc trên máy ảo GPU bằng NodeShift.
Trong hướng dẫn này, bạn sẽ học cách:
- Triển khai máy ảo GPU NodeShift (chúng tôi đã sử dụng A6000)
- Cài đặt Python, Conda và NVIDIA NeMo Toolkit
- Phiên âm các tệp âm thanh .wav chỉ với vài dòng mã
- Khởi chạy giao diện phiên âm trên trình duyệt bằng Gradio
- Truy cập an toàn qua SSH từ hệ thống cục bộ của bạn
Dù bạn đang xây dựng giao diện giọng nói, pipeline phiên âm hay chỉ đang khám phá các mô hình STT mạnh mẽ — mô hình này rất đáng để thử.
Đọc hướng dẫn đầy đủ tại: https://t.co/Cqn4Q6Q55d
#NVIDIA #AImodel