Reconocimiento continuo de voz mientras canta?

Como parte de mi aplicación estoy buscando agregar reconocimiento de voz, pero no realmente en el sentido tradicional. Tengo un montón de letras (divididas en versos) que alguien canta, y la idea es encontrar qué verso se está cantando actualmente para que se pueda mostrar en la pantalla.Reconocimiento continuo de voz mientras canta?

He jugado con sphinx y tengo algunos ejemplos básicos configurados y en funcionamiento, pero aunque parece que hay mucha documentación sobre cómo registrar el texto hablado en el que puede esperar una demora y luego procesar el resultado, puedo ' T encuentra mucho en la idea de reconocer oraciones continuamente. ¡Esto es, por supuesto, antes de llegar a la parte donde se cantan las palabras y no se las pronuncia!

¿Alguien ha tenido alguna experiencia con esto, y si es así, hay algún lugar que pueda proporcionar un buen punto de partida? ¿O lo que intento lograr es demasiado ambicioso con Sphinx y nunca funcionará correctamente? Estoy abierto a mirar otras bibliotecas, pero deben ser gratuitas, y la esfinge fue la más ampliamente comentada que pude encontrar.

Fuente

2011-08-23 berry120

Supongo que un gran problema sería obtener un juego de entrenamiento adecuado o un dispositivo de arranque de uno de tamaño limitado. – Eamorr

¿Podría alguien explicar el motivo del voto a favor? – berry120

Ggogle tropieza con [este artículo] (http://www.hindawi.com/journals/asmp/2010/546047/) cuando uso su pregunta en una búsqueda. No es de mucha ayuda cuando busco una biblioteca específica, me temo, pero podría ser útil orientarla si necesita construir algo usted mismo. – Wivani

Es perfectamente posible reconocer el habla tan pronto como se pronuncie con un poco de retraso. Además, si más o menos entiendes qué esperas obtener. Esto se llama "resultado parcial" y está disponible en todos los decodificadores CMUSphinx a través de API. Básicamente puedes recuperar hipótesis en proceso.

Hay un pequeño problema a tener en cuenta sobre la manera de estabilizar este resultado (cómo extraer la parte estable de la misma), pero esta técnica se llama retroceso y podría ser fácilmente implementado

para el canto, teniendo en cuenta la música puede ser filtrado, también es factible

Fuente

2011-09-14 10:22:04

Reconocimiento continuo de voz mientras canta?

Respuesta

Cuestiones relacionadas