Lo que tengo es un montón de archivos PDF (unos 100). No tienen una estructura adecuada ni tienen campos particulares. Todo lo que tienen es mucho texto.¿Cómo indexo archivos PDF y busco palabras clave?
Lo que estoy tratando de hacer:
Índice de los archivos PDF y la búsqueda de algunas palabras clave contra el índice. Estoy interesado en encontrar si esa palabra clave en particular está en el documento PDF y si lo está, quiero la línea donde se encuentra la palabra clave. Si busqué 'Google' en un documento PDF que tiene ese término, me gustaría ver que 'Google es un gran motor de búsqueda', que es la línea del PDF.
como decidí hacer:
De cualquier uso o SOLR Whoosh pero SOLR se ve bien para el soporte de PDF incorporado. Prefiero codificar en Python y Sunburst es un contenedor de SOLR que me gusta. El proyecto de muestra/ejemplo de SOLR tiene algún archivo de esquema basado en la comparación de precios. Ahora no estoy seguro si puedo usar SOLR para responder mi problema.
¿Qué es lo que ustedes chicos sugieren? Cualquier aporte se agradecerá.
¿Está proponiendo indexar cada PDF por cada palabra o frase que contiene? Si no, ¿cómo generará una lista de palabras clave? – smci
Tengo una lista de palabras clave en realidad. Quiero indexar todo el contenido en el PDF y luego ejecutar una búsqueda contra ese índice usando mis palabras clave. – ThinkCode