Parakeet-TDT 0.6B V2 de NVIDIA está aquí para cambiar la forma en que manejamos el reconocimiento de voz a texto.
Construido sobre la arquitectura FastConformer con un decodificador TDT, este modelo de alto rendimiento procesa audio en inglés de larga duración — hasta 24 minutos — con una precisión impresionante. Conserva la puntuación, la capitalización y ofrece marcas de tiempo a nivel de palabra, lo que lo hace ideal para transcribir conversaciones, entrevistas, reuniones e incluso grabaciones con ruido.
Acabamos de publicar una guía paso a paso que te muestra cómo ejecutar este modelo localmente o en una Máquina Virtual con GPU usando NodeShift.
En esta guía aprenderás a:
- Desplegar una VM GPU con NodeShift (usamos una A6000)
- Configurar Python, Conda e instalar NVIDIA NeMo Toolkit
- Transcribir archivos de audio .wav con pocas líneas de código
- Lanzar una interfaz de transcripción basada en navegador usando Gradio
- Acceder de forma segura vía SSH desde tu sistema local
Ya sea que estés construyendo interfaces de voz, pipelines de transcripción o simplemente explorando modelos STT potentes, este vale la pena revisarlo.
Lee la guía completa: https://t.co/Cqn4Q6Q55d
#NVIDIA #AImodel