2009-07-08 12 views
5

cómo obtener los mismos resultados que http://developer.yahoo.com/search/content/V1/termExtraction.htmlextracción Plazo: Generatings etiquetas fuera de texto

Esta pregunta se ha hecho unas cuantas veces antes.

Tratando de abordar este problema con las soluciones existentes tropecé sobre "Análisis de texto" Solr realiza en el documento antes de la indexación como descrito en http://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters - que incluye la derivación también.

Por lo tanto, el índice final consistirá principalmente de los términos utilizados para describir el documento.

¿Existe alguna solución que proporcione analizadores, tokenizadores y filtros token para uso directo? Si solr es la salida, ¿cuál es la mejor forma de obtener estos datos del índice de Solr?

Respuesta

4

Solr es una forma de crear un motor de búsqueda personalizado. No parece ser la herramienta adecuada para el trabajo. El Wikipedia article about term extraction enumera en su sección de "enlaces externos" varias aplicaciones web para la extracción de términos. OpenNLP tiene una lista de herramientas que pueden ser útiles. Its Chunker puede ser útil.

+0

sí, los términos de Solr solo devolverán los tokens únicos (quizás menos algunas palabras comunes y haciendo derivaciones, etc.). Realmente no le dirá lo que es significativo en el texto. Por lo que vale, puede aprovechar los términos de solr a través del http://wiki.apache.org/solr/TermsComponent – mlathe

0

Simplemente solicite los términos analizados, p. Ej.

http://localhost:8983/solr/terms?terms.fl=text&terms.sort=count&terms.limit=-1 

Ver TermsComponent para obtener más información.

Cuestiones relacionadas