Me sorprendió gratamente que alguien me haya preguntado cómo crear un sistema de sugerencia de ortografía de última generación para los motores de búsqueda. He estado trabajando en este tema durante más de un año para una empresa de motores de búsqueda y puedo señalar información sobre el dominio público sobre el tema.
Como se mencionó en una publicación anterior, Google (y Microsoft y Yahoo!) no usan ningún diccionario predefinido ni emplean hordas de lingüistas que reflexionan sobre los posibles errores ortográficos de las consultas. Eso sería imposible debido a la escala del problema, pero también porque no está claro que las personas puedan identificar correctamente cuándo y cuándo una consulta está mal escrita.
En su lugar, existe un principio simple y bastante eficaz que también es válido para todos los idiomas europeos. Obtenga todas las consultas únicas en sus registros de búsqueda, calcule la distancia de edición entre todos los pares de consultas, suponiendo que la consulta de referencia es la que tiene el recuento más alto.
Este algoritmo simple funcionará muy bien para muchos tipos de consultas. Si desea llevarlo al siguiente nivel, le sugiero que lea el documento de Microsoft Research sobre ese tema. Usted puede encontrarlo here
El documento tiene una gran introducción, pero después de eso tendrá que estar bien informado con conceptos tales como el Modelo Hidden Markov.
@pek: Hace un tiempo tuve el mismo pensamiento ... ¿Has pensado en utilizar un scruber HTML y usar Google como fuente de las correcciones? –
Ver http://stackoverflow.com/questions/3763640/where-can-i-learn-more-about-the-google-search-did-you-mean-algorithm – John