Tengo 5000, a veces más, cadenas de direcciones en una matriz. Me gustaría compararlos todos con levenshtein para encontrar coincidencias similares. ¿Cómo puedo hacer esto sin recorrer todos los 5000 y compararlos directamente con cada 4999?Comparar 5000 cadenas con PHP Levenshtein
Edit: También estoy interesado en métodos alternativos si alguien tiene sugerencias. El objetivo general es encontrar entradas similares (y eliminar duplicados) en función de direcciones de calles enviadas por el usuario.
En cuanto a su actualización, puede que tenga que aplicar un poco de limpieza de entrada para hacer su vida más fácil. (Por ejemplo: si convierte 'Ave' en 'Avenida' 'Rd' en 'Carretera', etc. antes del almacenamiento, el uso de soundex se convertiría en una opción más realista.) –
¿Cómo se definen direcciones similares? ¿Tiene algún valor máximo para la distancia de Lehvenstein que es el límite de similitud, etc.? –
Similar sería "12 Bird Road, Apt 6" y "12 Bird Rd. # 6" – phirschybar