Sincronización de texto y audio. ¿Hay una biblioteca NLP/speech-to-text para hacer esto?

Me gustaría sincronizar una grabación hablada con un texto conocido. ¿Hay una biblioteca de procesamiento de lenguaje a voz/lenguaje natural que facilitaría esto? Me imagino que me gustaría detectar límites de palabras y calcular coincidencias de candidato de un diccionario. La mayoría de las preguntas que he encontrado en SO se refieren al lenguaje escrito.Sincronización de texto y audio. ¿Hay una biblioteca NLP/speech-to-text para hacer esto?

desea, pero no es obligatorio:

Open Source
Compatible con Inglés Americano fuera de la caja
multiplataforma
minuciosamente documentado

Editar : Me doy cuenta de que esta es una pregunta muy amplia, incluso ingenua, así que gracias de antemano por su guía.

Lo que he encontrado hasta ahora:

OpenEars (IOS envoltorio Sphinx/Flite)

Fuente

2010-11-01 Justin

Estoy buscando hacer lo mismo, Sphinx parece demasiado grande y está documentado erráticamente. ¿Te preguntas con qué terminaste y si estás al tanto de algo más actualizado? Veo que esta pregunta se remonta a hace 2 años, ¿entonces las cosas deben haber cambiado desde entonces? –

Pasé del proyecto antes de aprender lo suficiente como para contribuir más a la discusión. – Justin

Para el registro: Mantengo el alineador forzado de Python/C aeneas: https://github.com/readbeyond/aeneas/ –

alineación forzada

Parece que usted quiere hacer forced alignment entre tu audio y el texto conocido.

Casi todos los sistemas de reconocimiento de voz de grado de investigación/industria podrán hacerlo, ya que la alineación forzada es una parte importante del entrenamiento de un sistema de reconocimiento de datos que no tiene alineaciones de nivel phone entre el audio y la transcripción.

alineación CMU Sphinx

El Sphinx4-1.0 beta 5 release del sistema de reconocimiento de voz de código abierto de CMU ahora incluye una demostración de cómo hacer la alineación entre la transcripción y grabaciones de voz de longitud.

Fuente

2010-11-02 03:20:30 dmcer

Fantástico. No me di cuenta de que estaba justo debajo de mis narices. – Justin

Esta Sphinx es una biblioteca de aspecto bastante útil, pero las instrucciones sobre cómo usar en iPhone parecen bastante anticuadas (¿iOS 3?) Y los comentarios sugieren que no es fácil de implementar en iOS4. Me pregunto si hay más información actualizada sobre esto disponible. –

Sincronización de texto y audio. ¿Hay una biblioteca NLP/speech-to-text para hacer esto?

Respuesta

Cuestiones relacionadas