Parakeet-TDT 0.6B V2 da NVIDIA chegou para mudar a forma como lidamos com speech-to-text.
Construído sobre a arquitetura FastConformer com um decodificador TDT, este modelo de alto desempenho processa áudio em inglês de longa duração — até 24 minutos — com precisão impressionante. Ele preserva pontuação, capitalização e fornece timestamps ao nível das palavras, tornando-o ideal para transcrever conversas, entrevistas, reuniões e até gravações com ruído.
Acabamos de lançar um guia passo a passo mostrando como executar este modelo localmente ou em uma Máquina Virtual com GPU usando NodeShift.
Neste guia, você aprenderá a:
- Implantar uma VM GPU NodeShift (usamos uma A6000)
- Configurar Python, Conda e instalar o NVIDIA NeMo Toolkit
- Transcrever arquivos de áudio .wav com poucas linhas de código
- Iniciar uma interface de transcrição baseada em navegador usando Gradio
- Acessá-la com segurança via SSH a partir do seu sistema local
Seja para construir interfaces de voz, pipelines de transcrição ou apenas explorar modelos STT poderosos — este vale a pena conferir.
Leia o guia completo: https://t.co/Cqn4Q6Q55d
#NVIDIA #AImodel