Im haciendo algunas investigaciones sobre cómo comparar archivos de sonido (onda). Básicamente, quiero comparar los archivos de sonido almacenados (wav) con el sonido de un micrófono. Así que, al final, me gustaría pre-almacenar algunos comandos de voz y cuando estoy ejecutando mi aplicación me gustaría comparar los archivos pre-almacenados con la entrada desde el micrófono.¿Qué contiene un marco de audio?
Mi idea era poner un poco de margen al comparar, porque decir algo dos veces seguidas de la misma manera sería difícil, supongo.
Así que después de buscar en Google veo que python tiene este módulo llamado wave y el objeto Wave_read. Ese objeto tiene una función llamada readframes (n):
lee y vuelve a lo sumo n marcos de de audio, como una cadena de bytes.
¿Qué contienen estos bytes? Estoy pensando en recorrer los archivos de la ola un cuadro a la vez comparándolos cuadro por cuadro.
Los bytes contienen datos PCM. ¿Estás tratando de hacer reconocimiento de voz? Parece que estás por encima de tu cabeza. Debes investigar este tema. – JoshD
Ah, maldita sea :) Gracias por las respuestas. Podrías llamarlo reconocimiento de voz, pero la forma en que pensé fue comparar archivos simples, lo que sería mucho más simple. En mi caso, solo se trataría de hacer el mismo sonido, no de analizar e intentar interpretar las palabras – Jason94
Eso es todavía reconocimiento de voz. Incluso una inflexión menor o una diferencia de velocidad en su voz va a dar datos de audio muy diferentes, por lo que no puede compararlos cuadro por cuadro. – Soviut