2009-12-05 5 views
6

Tengo una sordera grave a profunda desde muy temprana edad, pero afortunadamente puedo hablar como una persona normal. La comunicación verbal siempre ha sido difícil para mí debido a mis capacidades de reconocimiento de voz deterioradas, incluso con la lectura de labios. He estudiado en la escuela y la universidad simplemente leyendo tableros, diapositivas de PowerPoint, libros e Internet. Estoy bastante bien en mi actual trabajo de ingeniería de software, pero últimamente siento que debo esforzarme para mejorar mi situación.¿Cómo hacer un convertidor de voz a texto sin entrenamiento?

Los subtítulos son mi salvavidas en este país para entender películas/programas en la televisión y solo he disfrutado de esto durante los últimos 7 años (tengo 31 ahora).

Siento fuertemente la necesidad de poder ver subtítulos en la vida real cada vez que hablo con una persona, incluso extraños. Quiero desarrollar un conversor de voz a texto sin entrenamiento, y para empezar ni siquiera tiene que deletrear palabras exactas para mí, solo las pistas sobre sílabas/fonética también estarán bien.

He buscado en Google esto por un tiempo, pero la mayoría de los resultados son texto a voz o intentos a medias en el reconocimiento de voz para dar comandos de voz a una computadora. Realmente me gustaría obtener algunos consejos sobre cómo comenzar en este proyecto. Específicamente, necesito pasos como la forma de manejar los archivos de audio y el tipo de procesamiento que tengo que hacer para obtener una fonética aproximada lo más rápido posible.

+1

Pareja de grandes enlaces ya. Gracias chicos. Primero tengo que encontrar algunos programas simples, luego pienso en hacer una aplicación para iphone para poder tener una herramienta de subtitulado en tiempo real. Posible, pero vale la pena intentarlo. –

+1

Me alegro de que podamos ayudarte, Joy. –

+0

Salude, señor, por su vida audaz y la decisión de hacer algo por su cuenta. –

Respuesta

3

Es posible que desee mirar CMU's Sphinx project que hace discurso a texto en tiempo real. Tienen algunos demos para probarlo.

+0

Hay un curso sobre esto: Puede obtener material para estudiar aquí http://ocw.mit.edu/courses/electrical-engineering-and-computer-science/6-345-automatic-speech-recognition-spring- 2003/download-course-materials / – saurabheights

1

Eche un vistazo a DSP guide, se trata más de cosas de bajo nivel, pero técnicas como las transformadas de Fourier y el filtrado son de gran importancia para el procesamiento de audio. Incluso si no comienza desde cero, puede ser bueno apreciar los principios y las aplicaciones.

Dicho esto, apuesto a que a partir de cero, se podría crear algo que puede diferenciar un conjunto básico de sonidos con unos pocos días de trabajo ...