Cómo decodificar la entrada de voz

Lo que quiero hacer es crear una API que traduzca el habla humana en el formato IPA (Alfabeto fonético internacional). Mi pregunta es, ¿dónde están los recursos sobre cómo decodificar el habla en el nivel de la forma de onda de audio original. Busqué una API, pero la mayoría de lo que encontré se traduce directamente al alfabeto romano. Estoy buscando crear algo un poco más preciso en su capacidad para distinguir la fonética vocal.Cómo decodificar la entrada de voz

Fuente

2012-07-19 josiah

Me gustaría comenzar diciendo que este proyecto es mucho más difícil y complicado de lo que cree. El procesamiento de voz a texto es un campo muy grande y complicado con una gran cantidad de investigación que se ha realizado en él. La razón por la cual la mayoría de los analizadores envían las cosas directamente a los personajes romanos se debe a que la mayor parte de su procesamiento es una combinación probabilística de sonidos vagos con su contexto de otros sonidos vagos para adivinar qué palabras tienen sentido juntas. Es mucho más probable que encuentre algo que le proporcione Soundex en lugar de IPA. Dicho esto, este es un problema que se ha abordado en varios frentes. Su mejor apuesta es probablemente el proyecto Sphinx de CMU.

http://cmusphinx.sourceforge.net/wiki/start

que le dará un buen comienzo, pero que hacer una suposición de que el discurso de procesamiento de texto es mucho más desarrollada de lo que realmente es, y no hay manera sencilla de traducir el discurso de IPA a través de la forma de onda con cualquier tipo de precisión. Sphinx es una fuente muy modular y completamente abierta, por lo que te daría una gran cantidad de energía al alcance de tu mano, y en ese momento si puedes descubrir cómo hacer que esto funcione depende de ti, pero de nuevo. Este no es un problema resuelto de ninguna manera.

Fuente

2012-07-19 18:02:01

Suena como algo que vale la pena hacer, entonces. ¿Alguien ha documentado lo que se sabe sobre los métodos actuales utilizados para el texto <--> de voz? – josiah

Se trata prácticamente de cmu sphinx, tienen un registro bastante extenso de experimentos y modificaciones, por lo que no solo puedes ver lo que está implementado actualmente como lo último y mejor, sino que también puedes ver los experimentos que ejecutan para tratar de encontrar funciones con rendimiento óptimo. http://sourceforge.net/projects/cmusphinx/forums/forum/5470 –

Bastante astuto. Estoy esperando este proyecto. ¡Gracias! – josiah

Cómo decodificar la entrada de voz

Respuesta

Cuestiones relacionadas