Lo que quiero hacer es crear una API que traduzca el habla humana en el formato IPA (Alfabeto fonético internacional). Mi pregunta es, ¿dónde están los recursos sobre cómo decodificar el habla en el nivel de la forma de onda de audio original. Busqué una API, pero la mayoría de lo que encontré se traduce directamente al alfabeto romano. Estoy buscando crear algo un poco más preciso en su capacidad para distinguir la fonética vocal.Cómo decodificar la entrada de voz
Respuesta
Me gustaría comenzar diciendo que este proyecto es mucho más difícil y complicado de lo que cree. El procesamiento de voz a texto es un campo muy grande y complicado con una gran cantidad de investigación que se ha realizado en él. La razón por la cual la mayoría de los analizadores envían las cosas directamente a los personajes romanos se debe a que la mayor parte de su procesamiento es una combinación probabilística de sonidos vagos con su contexto de otros sonidos vagos para adivinar qué palabras tienen sentido juntas. Es mucho más probable que encuentre algo que le proporcione Soundex en lugar de IPA. Dicho esto, este es un problema que se ha abordado en varios frentes. Su mejor apuesta es probablemente el proyecto Sphinx de CMU.
http://cmusphinx.sourceforge.net/wiki/start
que le dará un buen comienzo, pero que hacer una suposición de que el discurso de procesamiento de texto es mucho más desarrollada de lo que realmente es, y no hay manera sencilla de traducir el discurso de IPA a través de la forma de onda con cualquier tipo de precisión. Sphinx es una fuente muy modular y completamente abierta, por lo que te daría una gran cantidad de energía al alcance de tu mano, y en ese momento si puedes descubrir cómo hacer que esto funcione depende de ti, pero de nuevo. Este no es un problema resuelto de ninguna manera.
- 1. jQuery Entrada de voz HTML5
- 2. Entrada de Voz/Voz Directa en el navegador móvil
- 3. Acceso de micrófono de entrada de voz HTML5
- 4. Entrada de voz para poblar Editar texto en android?
- 5. ¿Hay alguna manera de utilizar la API de SpeechRecognizer directamente para la entrada de voz?
- 6. Audio/Visualización de voz
- 7. Cómo decodificar google gclids
- 8. API de texto a voz (generación de voz) y de voz a texto (reconocimiento de voz)?
- 9. Comparar voz wav en Android o etiqueta de voz (comandos de voz) API
- 10. Cómo decodificar la entidad HTML con manubrios
- 11. ¿Cómo decodificar URL en la Solicitud Android
- 12. Cómo decodificar la cadena en iphone
- 13. ¿Cómo implementar un cambiador de voz?
- 14. Perl: utf8 :: decodificar vs. Codificar :: decodificar
- 15. Android TTS Voz masculina Cambio de voz
- 16. ¿Cómo puedo decodificar la nomenclatura de la biblioteca de impulso?
- 17. ¿Hay alguna manera de usar una gramática con la API de entrada de voz HTML 5?
- 18. Android 2.2: ¿Dónde está la opción de entrada de voz en el emulador?
- 19. Cómo decodificar JSON con Python
- 20. Reconocimiento continuo de voz Android
- 21. Cómo decodificar el código QR
- 22. ¿Cómo decodificar un archivo CSR?
- 23. ¿Cómo puedo decodificar entidades HTML?
- 24. ¿Cómo grabar voz en Android?
- 25. detección de voz en la Solicitud Android
- 26. Cómo decodificar archivos cifrados de ionCube?
- 27. ¿Cómo decodificar MP3 en Android dentro de la aplicación?
- 28. ahorro de entrada de audio de Android de motor de reconocimiento de voz
- 29. Cómo usar la API de comandos de voz en Android
- 30. ¿Qué lectores de voz admiten atributos de voz CSS3?
Suena como algo que vale la pena hacer, entonces. ¿Alguien ha documentado lo que se sabe sobre los métodos actuales utilizados para el texto <--> de voz? – josiah
Se trata prácticamente de cmu sphinx, tienen un registro bastante extenso de experimentos y modificaciones, por lo que no solo puedes ver lo que está implementado actualmente como lo último y mejor, sino que también puedes ver los experimentos que ejecutan para tratar de encontrar funciones con rendimiento óptimo. http://sourceforge.net/projects/cmusphinx/forums/forum/5470 –
Bastante astuto. Estoy esperando este proyecto. ¡Gracias! – josiah