2011-01-20 6 views
6

Estoy buscando la mejor forma de escanear entradas de texto (clasificados) y sacar palabras clave en PHP -alguien sabe de parte de la voz etiquetado? ¿Hay una forma PHP-ish para hacer esto?Cómo implicar a un etiquetador de voz parcial (POS)

Escaneo una gran cantidad de clasificados en línea, ¡pero ninguno con categorías! Para acelerar el proceso de categorización, estoy buscando instalar un etiquetador Part-of-Speech (http://en.wikipedia.org/wiki/Part-of-speech_tagging). Básicamente, estos son paquetes de software algorítmico de análisis de texto que pueden decirme qué palabras son sustantivos (como "Apartamento", "Coche", "Perro", etc.) y cómo son las palabras chatarra en, si, y, pero, etc. . PERO ...

Hay servicios de etiquetado en línea - uno de Yahoo, que parece estar recibiendo menos amor en estos días - otro de XEROX. Sin embargo, estoy realmente interesado en instalar mi propia biblioteca/software y conectarla a mi aplicación web.

¿ALGUIEN conoce una buena forma de instalar el etiquetado POS que funciona con una aplicación web PHP? Me muero por resolver esto, por lo que cualquier información, consejo u otra sabiduría que tengas es realmente apreciada.

He aquí una lista de un montón de diferentes software de la posición: http://www-nlp.stanford.edu/links/statnlp.html#Taggers (busque en "etiquetadores de punto de venta")

Gracias por leer esto!

+0

¿cuál es el mejor etiquetador POS? ¿alguna idea? –

Respuesta

5

Ian Barber ha implementado un Brill Tagger en PHP, que presenta en su sitio PHP/ir donde describe su uso para analizar tweets.

2

Sí, actualmente estoy usando el etiquetador Brill. Funciona en cierta medida, aunque me gustaría poder descubrir cómo contribuir a su conjunto de reglas. Comete muchos errores, pero aún proporciona aproximadamente el 85% de datos precisos. ¡Mi único problema es que es LENTO!

Lo hace bien donde cuenta, en palabras con doble significado; sin embargo, hay muchas convenciones no contabilizadas, como contrastar cláusulas de conjunción, por ejemplo, podría decir algo negativo sobre alguien, pero después de la coma, decir algo que invierte la polaridad a positivo, o no. La computadora no puede ver modismos.