Estoy buscando registrar eventos que corresponden a un sonido específico, como un portazo de automóvil, o tal vez una tostada de expulsión de tostadora.Identificación en tiempo real del sonido sin voz y sin música de un flujo de micrófono continuo
El sistema necesita ser más sofisticado que un "detector de ruido fuerte"; necesita poder distinguir ese sonido específico de otros ruidos fuertes.
La identificación no necesita tener latencia cero, pero el procesador necesita mantenerse al día con un flujo continuo de datos entrantes de un micrófono que siempre está encendido.
- ¿Es esta tarea significativamente diferente que el reconocimiento de voz, o podría hacer uso de bibliotecas de reconocimiento de voz/kits de herramientas para identificar estos sonidos que no son de voz?
- Dado el requisito de que solo tengo que hacer coincidir un sonido (en lugar de hacer coincidir una biblioteca de sonidos), ¿hay alguna optimización especial que pueda hacer?
This answer indica que un filtro adaptado sería apropiado, pero estoy nebuloso en los detalles. No creo que una correlación cruzada simple en los datos de la forma de onda de audio entre una muestra del sonido objetivo y el flujo del micrófono sea efectiva, debido a las variaciones en el sonido del objetivo.
Mi pregunta es también similar a this, que no recibió mucha atención.
Es posible que tenga mejor suerte sobre el http://dsp.stackexchange.com. – mtrw