Me gustaría sincronizar una grabación hablada con un texto conocido. ¿Hay una biblioteca de procesamiento de lenguaje a voz/lenguaje natural que facilitaría esto? Me imagino que me gustaría detectar límites de palabras y calcular coincidencias de candidato de un diccionario. La mayoría de las preguntas que he encontrado en SO se refieren al lenguaje escrito.Sincronización de texto y audio. ¿Hay una biblioteca NLP/speech-to-text para hacer esto?
desea, pero no es obligatorio:
- Open Source
- Compatible con Inglés Americano fuera de la caja
- multiplataforma
- minuciosamente documentado
Editar : Me doy cuenta de que esta es una pregunta muy amplia, incluso ingenua, así que gracias de antemano por su guía.
Lo que he encontrado hasta ahora:
- OpenEars (IOS envoltorio Sphinx/Flite)
Estoy buscando hacer lo mismo, Sphinx parece demasiado grande y está documentado erráticamente. ¿Te preguntas con qué terminaste y si estás al tanto de algo más actualizado? Veo que esta pregunta se remonta a hace 2 años, ¿entonces las cosas deben haber cambiado desde entonces? –
Pasé del proyecto antes de aprender lo suficiente como para contribuir más a la discusión. – Justin
Para el registro: Mantengo el alineador forzado de Python/C aeneas: https://github.com/readbeyond/aeneas/ –