¿Existe una manera eficiente de obtener una huella dactilar de una imagen para la detección de duplicados?¿Manera eficiente de tomar una huella digital de una imagen (jpg, png, etc.)?
Es decir, dado un archivo de imagen, digamos un jpg o png, me gustaría ser capaz de calcular rápidamente un valor que identifica el contenido de la imagen y es bastante resistente a otros aspectos de la imagen (por ejemplo, la imagen metadata) cambiando. Si se trata de redimensionar eso es aún mejor.
[Actualización] Con respecto a los metadatos en archivos jpg, ¿alguien sabe si está almacenado en una parte específica del archivo? Estoy buscando una manera fácil de ignorarlo, por ej. ¿Puedo omitir los primeros x bytes del archivo o tomar x bytes desde el final del archivo para asegurarme de que no obtengo los metadatos?
¿Esto se usará para detener las inundaciones de imágenes de algún tipo? –
Un par de usos: la detección de imágenes duplicadas en un gran corpus es el caso de uso básico, pero también varias búsquedas de spam relacionadas con el uso de imágenes. – Parand
Sí ... Apuesto a que leer esos libros en mi publicación valdría la pena. No baje el hash de la ruta de datos ... ¡eso sería como hash de mensajes de texto para evitar el correo no deseado! Usamos AI en el correo no deseado por una razón :) –