Estoy buscando una clase o método que requiera una larga cadena de cientos de palabras y tokenizes, elimina las palabras de parada y los tallos para usar en un sistema de IR.Tokenizador, Stop Word Removal, Stemming en Java
Por ejemplo:
"El gran gato gordo, dijo 'el tipo más gracioso que sé' para el canguro ..."
la tokenizer eliminaría la puntuacion y el retorno ArrayList
una de las palabras
la palabra parada removedor eliminaría palabras como "el", "a", etc
la lentilla reduciría cada palabra su 'raíz', por ejemplo 'más divertido' se volvería gracioso
Muchas gracias de antemano.
hey! @jitter va Lucene no ayuda?necesita un enlace más específico. – jsroyal