cómo obtener los mismos resultados que http://developer.yahoo.com/search/content/V1/termExtraction.htmlextracción Plazo: Generatings etiquetas fuera de texto
Esta pregunta se ha hecho unas cuantas veces antes.
Tratando de abordar este problema con las soluciones existentes tropecé sobre "Análisis de texto" Solr realiza en el documento antes de la indexación como descrito en http://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters - que incluye la derivación también.
Por lo tanto, el índice final consistirá principalmente de los términos utilizados para describir el documento.
¿Existe alguna solución que proporcione analizadores, tokenizadores y filtros token para uso directo? Si solr es la salida, ¿cuál es la mejor forma de obtener estos datos del índice de Solr?
sí, los términos de Solr solo devolverán los tokens únicos (quizás menos algunas palabras comunes y haciendo derivaciones, etc.). Realmente no le dirá lo que es significativo en el texto. Por lo que vale, puede aprovechar los términos de solr a través del http://wiki.apache.org/solr/TermsComponent – mlathe