Estoy buscando una biblioteca Java para hacer una revisión ortográfica inicial/normalización de datos en el contenido de texto generado por el usuario, imagine los intereses ingresados en un perfil de Facebook.Corrección de ortografía para la normalización de datos en Java
Este texto se convertirá en token en algún momento (antes o después de la corrección ortográfica, lo que sea que funcione mejor) y parte del mismo se utilizará como clave de búsqueda (coincidencia exacta). Sería bueno reducir los errores ortográficos y similares para producir más coincidencias. Sería incluso mejor si la corrección tuviera un buen rendimiento en tokens de más de una sola palabra, p. "café trinking" se convertiría en "tomar café" y no "pensar en café".
He encontrado las siguientes bibliotecas Java para hacer la corrección ortográfica:
- CHILLÓN no parecen estar bajo desarrollo activo. Además, el enfoque basado en la distancia del diccionario parece inadecuado debido al uso de un lenguaje no estándar en los perfiles de redes sociales y tokens de varias palabras.
- APACHE LUCENE parece tener un statistical spell checker que debería ser mucho más adecuado. La pregunta aquí sería cómo crear un buen diccionario? (No estamos utilizando Lucene de lo contrario, por lo que no existe un índice existente.)
¡Cualquier sugerencia es bienvenida!
Gracias por su perspicaz comentario y el interesante enlace al libro. Tienes razón, lo que realmente quiero es búsqueda difusa. Sin embargo, veré cómo/si funciona la corrección ortográfica para mi aplicación particular (quizás sea lo suficientemente buena en este momento) y vuelva a visitar las ideas que mencionó más adelante. ¡Muchas gracias! – dareios