Necesito analizar el texto para que exista en las palabras prohibidas. Supongamos que la lista negra es la palabra: "Prohibir". La palabra tiene muchas formas. En el texto, la palabra puede ser, por ejemplo: "prohibido", "prohibido", "prohibido". Para llevar la palabra a la forma inicial, utilizo una lematización de proceso. ¿Tus sugerencias?Analizar texto (lematización, distancia de edición)
¿Qué pasa con los errores tipográficos?
Por ejemplo: "F0rb1d". Creo que use damerau-Levenshtein u otro. Usted sugerencias?
¿Y si el texto se escribe como sigue:
"ForbiddenInformation.Privatecorrespondenceofthecompany." O "F0rb1dden1nformation.Privatecorresp0ndenceofthec0mpany". (sí, sin espacio en blanco)
¿Cómo resolver este problema?
Preferiblemente algoritmo rápido, porque el texto se procesa en tiempo real.
Y tal vez, ¿qué algunos consejos para mejorar el rendimiento (cómo almacenar, etc.)?
Lo siento por mi inglés. Gracias.
Duplicados no exactos, pero similares [ques] (http://stackoverflow.com/questions/246961/algorithm-to-find-similar-text) [tions] (http://stackoverflow.com/questions/4067105/detect-duplicated-similar-text-among-large-datasets). – khachik