Estoy haciendo un proyecto para una clase de la universidad que estoy tomando.Minería de texto con PHP
Estoy usando PHP para crear una aplicación web simple que clasifique los tweets como "positivos" (o felices) y "negativos" (o tristes) según un conjunto de diccionarios. El algoritmo en el que estoy pensando ahora es el clasificador Naive Bayes o el árbol de decisiones.
Sin embargo, no puedo encontrar ninguna biblioteca de PHP que me ayude a hacer un procesamiento de lenguaje serio. Python tiene NLTK (http://www.nltk.org). ¿Hay algo así para PHP?
Estoy planeando usar WEKA como el back-end de la aplicación web (llamando a Weka en línea de comandos desde PHP), pero no parece tan eficiente.
¿Tiene alguna idea de lo que debería usar para este proyecto? ¿O debería cambiar a Python?
Gracias
clasificadores bayesianos Naive no son realmente difícil escribir usted mismo si usted entiende los principios básicos. En realidad, puedes hacer todo en PHP de esa manera. San Jacinto ya cubrió todo lo que hubiera dicho sobre la parte PNL. Otra cosa que puedo decirte de un proyecto similar que hice hace un par de semanas es que la clasificación de sentimientos usando el enfoque estándar de bolsa de palabras en realidad no funciona muy bien. Sin embargo, no probé nada como n-grams ... Tengo la sensación de que funcionarían mejor, pero por supuesto eso le daría toneladas de dimensiones adicionales ... –
No hay ninguna indicación en ninguno de sus publicar o el que está vinculado a por qué esta es una solución adecuada. –
El Text_LanguageDetect de PEAR puede identificar 52 idiomas humanos a partir de muestras de texto y devolver puntajes de confianza para cada uno. ¿No es esta una opción interesante para tener en cuenta? – nuqqsa