Estoy tratando de escribir un script de Python para buscar archivos MP3/4 duplicados usando los datos de la canción como base para comparar. Mi situación involucra muchos archivos mp3/4 con nombres de archivo similares, pero con diferentes etiquetas ID3. Al principio intenté recorrer y usar md5 para buscar archivos duplicados (ignorando los nombres de los archivos). Esto, por supuesto, no funcionó cuando las etiquetas ID3 no coincidían.Acceder a datos de música MP3 usando Python
Como resultado, estoy buscando una forma de extraer solo los datos de música de un mp3/4 para ejecutarlos a través de md5 y encontrar los duplicados. ¿Cuál es la mejor manera de hacerlo?
La música probablemente (aunque sea 'idéntica') viene en diferentes velocidades de bits (a menos que pueda estar seguro de que todo es sin pérdida) lo que hará inútil una comparación * simple * 'de datos. Por lo tanto, necesitará una técnica más avanzada (probablemente estadística). Estoy seguro de que alguien en SO podrá proporcionar algunos consejos ... – ChristopheD
Buen punto, en lugar de simple md5, un análisis de Frecuencia de Frecuencia es más apropiado. Sin embargo, el volumen puede ser diferente. Entonces, supongo que buscaría la correlación entre los dos efebos y esperaría una alta correlación, tal vez? Resulta complicado porque algunas canciones pueden incluir "preanuncias", una introducción o un discurso, que son difíciles de detectar. –
@Hamish: Me pregunto si desearía considerarlos como diferentes (por ejemplo, una presentación en vivo de alguna canción con, por ejemplo, una introducción hablada en comparación con una grabación particular de un estudio). Depende de cómo se defina "duplicado", supongo. Esto se está convirtiendo en un problema bastante interesante. :) – Faisal