2010-11-04 13 views
5

Estoy indexando archivos PDF con Solr usando ExtractingRequestHandler. Me gustaría mostrar el número de página junto con las visitas en un documento, p. "término foo se encontró en bar.pdf en las páginas 2, 3 y 5."Indexando PDF con números de página con Solr

¿Es posible incluir números de página en el resultado de la consulta de esta manera?

Respuesta

5

Requeriría algún esfuerzo de desarrollo, pero puede lograr esto indexando cada página de cada documento como un documento separado de Solr, y luego use field collapsing para agrupar los diferentes hits de página para cada documento.

Tenga en cuenta que necesita una aplicación nocturna para esto, el colapso de campo no está implementado en ninguna versión de Solr lanzada actualmente.

También tenga en cuenta: el colapso de campo se implementa en la versión Solr 3.3. Se esperan más actualizaciones en la próxima versión grande (Solr 4.0)

+1

¿En este momento tal vez haya nuevas soluciones a este problema? – zygimantus

+1

@zygimantus He comprobado algunas entradas SOLR en JIRA que tenían 10 años. Es bastante seguro decir que no. La forma sugerida es la descrita en esta respuesta. Otras formas también serían posibles, pero tomarán más tiempo/serán más difíciles ya que tendrías que personalizar Solr. – Howie