2010-11-01 18 views
12

Me gustaría sincronizar una grabación hablada con un texto conocido. ¿Hay una biblioteca de procesamiento de lenguaje a voz/lenguaje natural que facilitaría esto? Me imagino que me gustaría detectar límites de palabras y calcular coincidencias de candidato de un diccionario. La mayoría de las preguntas que he encontrado en SO se refieren al lenguaje escrito.Sincronización de texto y audio. ¿Hay una biblioteca NLP/speech-to-text para hacer esto?

desea, pero no es obligatorio:

  • Open Source
  • Compatible con Inglés Americano fuera de la caja
  • multiplataforma
  • minuciosamente documentado

Editar : Me doy cuenta de que esta es una pregunta muy amplia, incluso ingenua, así que gracias de antemano por su guía.

Lo que he encontrado hasta ahora:

  • OpenEars (IOS envoltorio Sphinx/Flite)
+0

Estoy buscando hacer lo mismo, Sphinx parece demasiado grande y está documentado erráticamente. ¿Te preguntas con qué terminaste y si estás al tanto de algo más actualizado? Veo que esta pregunta se remonta a hace 2 años, ¿entonces las cosas deben haber cambiado desde entonces? –

+0

Pasé del proyecto antes de aprender lo suficiente como para contribuir más a la discusión. – Justin

+1

Para el registro: Mantengo el alineador forzado de Python/C aeneas: https://github.com/readbeyond/aeneas/ –

Respuesta

10

alineación forzada

Parece que usted quiere hacer forced alignment entre tu audio y el texto conocido.

Casi todos los sistemas de reconocimiento de voz de grado de investigación/industria podrán hacerlo, ya que la alineación forzada es una parte importante del entrenamiento de un sistema de reconocimiento de datos que no tiene alineaciones de nivel phone entre el audio y la transcripción.

alineación CMU Sphinx

El Sphinx4-1.0 beta 5 release del sistema de reconocimiento de voz de código abierto de CMU ahora incluye una demostración de cómo hacer la alineación entre la transcripción y grabaciones de voz de longitud.

+0

Fantástico. No me di cuenta de que estaba justo debajo de mis narices. – Justin

+0

Esta Sphinx es una biblioteca de aspecto bastante útil, pero las instrucciones sobre cómo usar en iPhone parecen bastante anticuadas (¿iOS 3?) Y los comentarios sugieren que no es fácil de implementar en iOS4. Me pregunto si hay más información actualizada sobre esto disponible. –

Cuestiones relacionadas