Mi gran colección de música (120 gb) contiene muchas canciones duplicadas, y he estado tratando de tomar huellas dactilares con la esperanza de detectar duplicados. Y dado que soy comandante de CS, siento mucha curiosidad por saber qué se hace allí. Nada de lo que hago tiene casi la precisión de algo como Shazam o Lala.com. ¿Cómo hacen "hash" pistas? He ejecutado un hash MD5 estándar en todos mis archivos (26,000 archivos) y encontré cientos de hash iguales en diferentes pistas, por lo que no funciona.¿Cómo funciona la huella digital musical (para sitios como Shazam y Lala.com)?
Estoy más interesado en Lala.com ya que trabajan con archivos completos, a diferencia de Shazam, pero supongo que ambos usan una técnica similar. ¿Alguien puede explicar cómo generar identificadores únicos para la música?
Encontraste cientos de colisiones MD5? Creo que algunos investigadores de seguridad estarían interesados en saber de eso. En este punto, MD5 se considera inseguro, pero aún debe esforzarse por construir dos archivos con el mismo hash pero diferente contenido. – keegan
Alguien escribió una vez un buen documento que resume el algoritmo de la patente de Shazam [1], pero los abogados de Shazam hicieron que lo derribaran. No estoy convencido de que la redacción de un documento así sea una infracción de patente, pero toma mucho tiempo y dinero demostrar que, de lo contrario, estaba tan lejos. Según se informa, la patente en sí es bastante legible en comparación con muchas patentes, que se vuelven obscenas. [1]: https://www.techdirt.com/articles/20100708/04230710128.shtml –