He desarrollado un sistema de prueba de concepto para el reconocimiento de sonido utilizando mfcc y modelos de markov ocultos. Da resultados prometedores cuando pruebo el sistema con sonidos conocidos. Aunque el sistema, cuando se ingresa un sonido desconocido, devuelve el resultado con la coincidencia más cercana y el puntaje no es tan distinto de idear que es un sonido desconocido, por ejemplo:umbral de modelo de markov oculto
He entrenado 3 modelos de markov ocultos uno para voz, uno para agua que sale del grifo de agua y otra para golpear el escritorio. Entonces probarlos en los datos que no se ven y conseguir resultados siguientes:
input: speech
HMM\knocking: -1213.8911146444477
HMM\speech: -617.8735676792728
HMM\watertap: -1504.4735097322673
So highest score speech which is correct
input: watertap
HMM\knocking: -3715.7246152783955
HMM\speech: -4302.67960438553
HMM\watertap: -1965.6149147201534
So highest score watertap which is correct
input: knocking
HMM\filler -806.7248912250212
HMM\knocking: -756.4428782636676
HMM\speech: -1201.686687761133
HMM\watertap: -3025.181144273698
So highest score knocking which is correct
input: unknown
HMM\knocking: -4369.1702184688975
HMM\speech: -5090.37122832872
HMM\watertap: -7717.501505674925
Aquí, la entrada es un sonido desconocido pero todavía devuelve el valor más cercano que no existe un sistema para el filtrado de umbrales/basura.
Sé que en la detección de palabras clave se puede filtrar un sonido OOV (sin vocabulario) utilizando un modelo de basura o relleno pero dice que está entrenado usando un conjunto finito de palabras desconocidas donde esto no se puede aplicar a mi sistema ya que no conozco todos los sonidos que el sistema puede grabar.
¿Cómo se resuelve un problema similar en el sistema de reconocimiento de voz? ¿Y cómo puedo resolver mi problema para evitar falsos positivos?
Creo que esto debería moverse a Cross Validated. – ziggystar
Acepto que obtendría más (y mejor calificada) atención de Cross Validated. Lamentablemente, la señal del murciélago (también conocido como "suficientes globos oculares con permisos lo suficientemente altos") parece estar desactivada, por lo que Radek tendría que ponerlo allí. (El "pertenece encendido" no tiene una opción para CV o manualmente especificando a dónde pertenece. Meh.) – Godeke