Métodos basados en la distancia de Levenshtein Vs Soundex

Según this comente un hilo relacionado, me gustaría saber por qué los métodos basados en la distancia de Levenshtein son mejores que Soundex.Métodos basados en la distancia de Levenshtein Vs Soundex

Fuente

2008-09-03 ColinYounger

En segundo lugar la sugerencia de Metaphone/Double Metaphone –

¿Qué es el doble de metafonía? – Marin

Soundex es bastante primitivo, fue desarrollado originalmente para ser calculado a mano. Resulta en una clave que se puede comparar.

Soundex funciona bien con los nombres occidentales, ya que fue desarrollado originalmente para los datos del censo de EE. UU. Está destinado a la comparación fonética.

Levenshtein distance observa dos valores y produce un valor basado en su similitud. Está buscando letras perdidas o sustituidas.

Básicamente Soundex es mejor para encontrar que "Schmidt" y "Smith" pueden ser del mismo apellido.

distancia Levenshtein es mejor para detectar que el usuario ha escrito mal "Levnshtein" ;-)

Fuente

2008-09-03 16:09:41 Keith

@Keith:

Como he publicado en la otra pregunta, Daitch-Mokotoff es mejor para nosotros los europeos (y yo argumentaría en los Estados Unidos).

También he leído la Wiki en Levenshtein. Pero no veo por qué (en la vida real) es mejor para el usuario que Soundex.

Fuente

2008-09-03 16:15:12 ColinYounger

Sugeriría usar Metaphone, no Soundex. Como se señaló, Soundex se desarrolló en el siglo XIX con nombres estadounidenses. Metaphone le dará algunos resultados al verificar el trabajo de los deficientes deletreadores que están "sondeándolo" y deletreando fonéticamente.

La distancia de edición es buena para atrapar errores tipográficos, como letras repetidas, letras transpuestas o presionar la tecla incorrecta.

Considera la aplicación para decidir cuál se ajustará mejor a tus usuarios — o úsalas ambas juntas, con Metaphone complementando las sugerencias producidas por Levenshtein.

Con respecto a la pregunta original, he usado n-grams con éxito en aplicaciones de recuperación de información.

Fuente

2008-09-03 16:18:45 erickson

e iría por metafonía doble, devuelve 2 códigos, uno para sonido occidental y otro para sonidos 'extranjeros' (más slavic IIRC). – gbjbaanb

Soundex se desarrolló a principios del siglo XX y se usó para datos censales del siglo XIX. – webmaster777

Estoy de acuerdo con usted en Daitch-Mokotoff, Soundex es parcial porque los encuestadores originales de Estados Unidos querían nombres 'americanizados'.

Tal vez un ejemplo de la diferencia ayudaría:

Soundex pone adición de valor en el inicio de una palabra - de hecho, sólo tiene en cuenta los 4 primeros sonidos fonéticos. Entonces, si "Schmidt" y "Smith" coincidirán con "Smith" y "Wmith" no lo harán.

El algoritmo de Levenshtein sería mejor para encontrar errores tipográficos: una o dos letras faltantes o reemplazadas produce una alta correlación, mientras que el impacto fonético de esas letras faltantes es menos importante.

No creo que ninguno sea mejor, y consideraría tanto un algoritmo de distancia como uno fonético para ayudar a los usuarios a corregir la entrada mecanografiada.

Fuente

2008-09-03 16:24:08 Keith

Métodos basados ​​en la distancia de Levenshtein Vs Soundex

Respuesta

Cuestiones relacionadas

Métodos basados en la distancia de Levenshtein Vs Soundex