Estoy tratando de entrenar un clasificador Naive Bayes con palabras positivas/negativas que extraen de un sentimiento. ejemplo:1 millón de oraciones para guardar en DB - eliminación de palabras en inglés no relevantes
Me encanta esta película :))
No me gusta cuando llueve :(
La idea es que extraigo frases positivas o negativas, sobre la base de los emoctions utilizados, pero con el fin de entrenar a un clasificador y persistirlo en la base de datos
El problema es que tengo más de 1 millón de oraciones así que si lo entreno palabra por palabra, la base de datos se lanzará. Quiero eliminar todas las palabras no relevantes ejemplo 'I', 'this', 'when', 'it', de modo que el número de veces que tengo que hacer una consulta en la base de datos es menor.
favor me ayude a resolver este problema para mí sugerir mejores maneras de hacerlo
Gracias
yo supongo que sus palabras "no relevantes" incluyendo 'I', 'este', 'cuándo', 'eso' debería aparecer con mucha frecuencia, tanto en positivo y oraciones negativas. Tal vez esto puede ayudar a diseñar un algoritmo para descalificar automáticamente algunas palabras, ya sea sobre la marcha o como un pre-pase. – aschepler
+1 para la frase "la base de datos se lanzará" – Stompchicken
¿Tiene que ser una base de datos?¿Qué tal un motor de búsqueda de texto completo? O una estructura de datos simple? http://www.lucidimagination.com/Community/Hear-from-the-Experts/Articles/Full-Text-Search-Engine-versus-DBMS –