Su enfoque no funcionará para cualquier ejemplo musical en general, por las siguientes razones:
Música por su propia naturaleza es dinámica. Lo que significa que cada sonido presente en la música está modulado por distintos períodos de silencio, ataque, sostenimiento, decadencia y nuevamente silencio, también conocidos como la envolvente del sonido.
Las notas de instrumentos musicales y las notas vocales humanas no se pueden sintetizar correctamente con un solo tono. Estas notas deben ser sintetizadas por un tono fundamental y muchos armónicos.
Sin embargo, no es suficiente sintetizar el tono fundamental y los armónicos de una nota de instrumento musical o nota vocal, también se debe sintetizar la envolvente de la nota, como se describe en 1 arriba.
Además, para sintetizar un pasaje melódico en la música, ya sea instrumental o vocal, uno debe sintetizar los elementos 1-3 anteriores, para cada nota del pasaje, y también se debe sintetizar el tiempo de cada nota relativa al comienzo del pasaje
Extraer analíticamente instrumentos individuales o voces humanas de una grabación de mezcla final es un problema muy difícil, y su enfoque no aborda ese problema, por lo que su enfoque no puede abordar correctamente los problemas 1-4.
En definitiva, cualquier enfoque que intenta extraer una cerca de la transcripción musical perfecta de la mezcla final de una grabación musical, mediante el uso de métodos analíticos rigurosos, es en el peor, casi con toda seguridad destinada al fracaso, y en el mejor cae en el reino de la investigación avanzada.
Cómo proceder de este callejón sin salida depende de cuál es el propósito del trabajo, algo que el OP no mencionó.
¿Este trabajo se utilizará en un producto comercial, o es un proyecto de pasatiempo?
Si se trata de un trabajo comercial, se justifican varios enfoques adicionales (costosos o muy costosos), pero los detalles de esos enfoques dependen de cuáles sean los objetivos del trabajo.
Como nota de cierre, su síntesis suena como pitidos al azar debido a lo siguiente:
Su detector de tono fundamental está ligada a la sincronización de los marcos de FFT rodadura, que en efecto genera un probablemente falsa fundamental tono al inicio de cada fotograma FFT rodante.
¿Por qué los tonos fundamentales detectados son probablemente falsos? Debido a que está recortando arbitrariamente la muestra musical en marcos (FFT), y por lo tanto, probablemente esté truncando muchas notas que suenan simultáneamente en algún punto medio, distorsionando así las firmas espectrales de las notas.
No está tratando de sintetizar los sobres de las notas detectadas, ni puede hacerlo, porque no hay forma de obtener información de envolvente según su análisis.
Por lo tanto, el resultado sintetizado es probablemente una serie de chirridos sinusoidales puros, espaciados en el tiempo por el delta-t del marco FFT rodante. Cada chirrido puede ser de una frecuencia diferente, con una magnitud de envolvente diferente, y con envolventes que son probablemente de forma rectangular.
Para ver la naturaleza compleja de las notas musicales, echar un vistazo a estas referencias:
Musical instrument spectra to 102.4 KHz
Musical instrument note spectra and their time-domain envelopes
En particular, señalan los muchos tonos puros que componen cada nota, y la forma compleja del sobre del dominio del tiempo de cada nota. El tiempo variable de notas múltiples entre sí es un aspecto esencial adicional de la música, como lo es la polifonía (voces múltiples que suenan simultáneamente) en la música típica.
Todos estos elementos de la música conspiran para hacer que el estricto enfoque analítico de la transcripción musical autónoma sea extremadamente desafiante.
Puede que le interese saber que su proceso básico de "encontrar la parte importante del sonido e ignorar las partes que no puede escuchar" (que modela como FFT + detección de picos) es la base de la codificación MP3. Obviamente, su idea de "la parte importante" es mucho más elegante. –