¿Cómo deben representarse los datos de audio estéreo (2 canales) para FFT? ¿SeCómo representar los datos de audio estéreo para FFT
A. tomar el promedio de los dos canales y la asigna a la parte real de un número y dejar el componente imaginario 0.
B. Asignar un canal al componente real y el otro canal a el componente imag.
¿Hay alguna razón para hacer una u otra? Busqué en la web pero no pude encontrar ninguna respuesta definitiva sobre esto.
Estoy haciendo un análisis de espectro simple y, sin saber nada mejor, utilicé la opción A). Esto me dio un resultado inesperado, mientras que la opción B) fue como se esperaba. Aquí hay más detalles:
Tengo un archivo WAV de un piano "medio-C". Por definición, el medio-C es 260Hz, por lo que yo esperaría que la frecuencia máxima esté a 260Hz y picos más pequeños en armónicos. Lo confirmé al ver el espectro a través de un software de edición de audio (Sound Forge). Pero cuando tomé FFT yo mismo, con la opción A), el pico estaba a 520Hz. Con la opción B), el pico estaba a 260Hz.
¿Echo de menos algo? La explicación que se me ocurrió hasta ahora es que la representación de datos estéreo usando un componente real e imag implica que los dos canales son independientes, lo cual, supongo que no es así, y por lo tanto el desorden.
De hecho, tiene mucho sentido. Vea la respuesta a esa pregunta para más detalles: http://stackoverflow.com/questions/14477454/apply-fft-to-a-both-channels-of-a-stereo-signal-seperately –