Indexar documentos de Word y PDF con Sphinx

Tengo un sitio web donde los usuarios cargan documentos en formato .doc y .pdf. Estoy usando Sphinx para realizar búsquedas de texto completo en mi base de datos SQL (MySQL). ¿Cuál es la mejor manera de indexar estos formatos de archivo con Sphinx?Indexar documentos de Word y PDF con Sphinx

Fuente

2009-07-30 Jared Brown

Desafortunadamente, Sphinx no puede indexar esos tipos de archivos directamente. Tendrá que importar los contenidos textuales a una base de datos o al an XML format that Sphinx can understand.

Fuente

2009-07-30 21:16:12 pat

, ¿Le recomendar un método sobre otro? –

Depende del idioma del lado del servidor que está utilizando. Si se trata de Ruby/Rails, sé que todas las bibliotecas no son compatibles con XML de forma inmediata, a menos que esté construyendo un sistema desde cero (en lugar de, por ejemplo, usando ActiveRecord). Entonces utilizaría la base de datos. De lo contrario, depende completamente de usted. Si no está usando Ruby, eche un vistazo a las bibliotecas disponibles para su idioma de elección, vea lo que pueden/no pueden hacer. – pat

El método que uso para esto es pdf2text y antiword. Utilizo ambos para volcar el contenido de los pdfs y los documentos de Word en la base de datos. Desde allí, es fácil gatear con Sphinx.

Fuente

2011-04-02 22:01:27 mlissner

Im utilizando el mismo método como usted y su funcionamiento para mí. – Johny

¿Alguien ha usado Tika para indexar otros tipos de documentos, al igual que el plugin SOLR? Apache Tika

Algunos enlaces:

Fuente

2013-10-17 19:37:46 Wadester

Indexar documentos de Word y PDF con Sphinx

Respuesta

Cuestiones relacionadas