Parakeet-TDT 0.6B V2 от NVIDIA меняет подход к преобразованию речи в текст.
Созданная на базе архитектуры FastConformer с декодером TDT, эта высокопроизводительная модель обрабатывает длительные аудиозаписи на английском языке — до 24 минут — с впечатляющей точностью. Она сохраняет пунктуацию, заглавные буквы и предоставляет временные метки на уровне слов, что делает её идеальной для транскрибирования разговоров, интервью, встреч и даже шумных записей.
Мы только что опубликовали пошаговое руководство, в котором показано, как запускать эту модель локально или на виртуальной машине с GPU с помощью NodeShift.
В этом руководстве вы узнаете, как:
- Развернуть виртуальную машину NodeShift с GPU (мы использовали A6000)
- Настроить Python, Conda и установить NVIDIA NeMo Toolkit
- Транскрибировать аудиофайлы .wav всего в несколько строк кода
- Запустить браузерный интерфейс для транскрипции с помощью Gradio
- Безопасно получить к нему доступ через SSH с вашего локального компьютера
Если вы создаёте голосовые интерфейсы, конвейеры транскрипции или просто исследуете мощные модели STT — эта модель определённо стоит вашего внимания.
Полное руководство читайте по ссылке: https://t.co/Cqn4Q6Q55d
#NVIDIA #AImodel