En aras de la exhaustividad, aquí las opciones yo sepa:
Yaafe y libXtract son probablemente los más altamente optimizados en términos de rendimiento (ver los puntos de referencia abajo). Ambos comparten computación intermedia entre extractores de características. Por ejemplo, solo ejecutarán una FFT por ventana y luego cualquier extractor que requiera una FFT simplemente hará referencia a esa FFT. Lo mismo para funciones de nivel superior. Los otros extractores mencionados realmente no hacen eso porque dependen de una arquitectura de complemento, es decir, cada extractor necesita ser independiente.
Sonic Annotator y sus amigos se benefician de una arquitectura de complemento para que pueda disfrutar de todo tipo de extractores de funciones de terceros (incluidos libXtract, aubio y Essentia). El ecosistema del plugin Vamp es realmente bastante variado y maravilloso. Hay un código de ejemplo completo en el SDK de Vamp Plugin para construir un host de complemento.
Sé muy poco sobre Essentia, excepto que es más nuevo que los demás y proviene del excelente Music Technology Group de Pompeu Fabra. Parece un proyecto grande y bien organizado. La documentación es muy buena. Lo están usando en proyectos de análisis de música a gran escala (como Freesound y AcousticBrainz). El enfoque del proyecto parece estar en el rendimiento y la corrección. Definitivamente vale la pena mirar.
MARSYAS es un framework completo, no solo librerías. La documentación es bastante buena. Está en desarrollo activo y es parte de un MOOC ofrecido periódicamente por George Tzanetakis en la UVic. Parece que hay bastantes aplicaciones y proyectos construidos alrededor de MARYSYAS.
CAMEL y Maaate parecen inactivos, no han visto un nuevo lanzamiento desde 2010 y 2012, respectivamente.
Aquí es un punto de referencia (en segundos) comparar Annotator de Sonic, Marsias y YAAFE haciendo la extracción de características en 40 horas de archivos WAV mono 32 kHz:
S.A. Marsyas YAAFE
MFCC 1506 1168 142
Centroid 724 942 235
Rolloff 731 951 194
ZCR 221 620 57
Total 3182 3681 628
¿Cuál considera "características"? – RedFilter
Cuando digo "características", me refiero a una definición teórica más AI. Una función es cualquier métrica que se puede usar para distinguir o agrupar el audio. Por ejemplo, el promedio o la varianza y otras cosas estadísticas pueden ser características. – esiegel