2011-08-23 14 views
9

Como parte de mi aplicación estoy buscando agregar reconocimiento de voz, pero no realmente en el sentido tradicional. Tengo un montón de letras (divididas en versos) que alguien canta, y la idea es encontrar qué verso se está cantando actualmente para que se pueda mostrar en la pantalla.Reconocimiento continuo de voz mientras canta?

He jugado con sphinx y tengo algunos ejemplos básicos configurados y en funcionamiento, pero aunque parece que hay mucha documentación sobre cómo registrar el texto hablado en el que puede esperar una demora y luego procesar el resultado, puedo ' T encuentra mucho en la idea de reconocer oraciones continuamente. ¡Esto es, por supuesto, antes de llegar a la parte donde se cantan las palabras y no se las pronuncia!

¿Alguien ha tenido alguna experiencia con esto, y si es así, hay algún lugar que pueda proporcionar un buen punto de partida? ¿O lo que intento lograr es demasiado ambicioso con Sphinx y nunca funcionará correctamente? Estoy abierto a mirar otras bibliotecas, pero deben ser gratuitas, y la esfinge fue la más ampliamente comentada que pude encontrar.

+1

Supongo que un gran problema sería obtener un juego de entrenamiento adecuado o un dispositivo de arranque de uno de tamaño limitado. – Eamorr

+2

¿Podría alguien explicar el motivo del voto a favor? – berry120

+0

Ggogle tropieza con [este artículo] (http://www.hindawi.com/journals/asmp/2010/546047/) cuando uso su pregunta en una búsqueda. No es de mucha ayuda cuando busco una biblioteca específica, me temo, pero podría ser útil orientarla si necesita construir algo usted mismo. – Wivani

Respuesta

3

Es perfectamente posible reconocer el habla tan pronto como se pronuncie con un poco de retraso. Además, si más o menos entiendes qué esperas obtener. Esto se llama "resultado parcial" y está disponible en todos los decodificadores CMUSphinx a través de API. Básicamente puedes recuperar hipótesis en proceso.

Hay un pequeño problema a tener en cuenta sobre la manera de estabilizar este resultado (cómo extraer la parte estable de la misma), pero esta técnica se llama retroceso y podría ser fácilmente implementado

para el canto, teniendo en cuenta la música puede ser filtrado, también es factible

Cuestiones relacionadas