2009-07-30 28 views
10

Tengo un sitio web donde los usuarios cargan documentos en formato .doc y .pdf. Estoy usando Sphinx para realizar búsquedas de texto completo en mi base de datos SQL (MySQL). ¿Cuál es la mejor manera de indexar estos formatos de archivo con Sphinx?Indexar documentos de Word y PDF con Sphinx

Respuesta

6

Desafortunadamente, Sphinx no puede indexar esos tipos de archivos directamente. Tendrá que importar los contenidos textuales a una base de datos o al an XML format that Sphinx can understand.

+0

, ¿Le recomendar un método sobre otro? –

+0

Depende del idioma del lado del servidor que está utilizando. Si se trata de Ruby/Rails, sé que todas las bibliotecas no son compatibles con XML de forma inmediata, a menos que esté construyendo un sistema desde cero (en lugar de, por ejemplo, usando ActiveRecord). Entonces utilizaría la base de datos. De lo contrario, depende completamente de usted. Si no está usando Ruby, eche un vistazo a las bibliotecas disponibles para su idioma de elección, vea lo que pueden/no pueden hacer. – pat

9

El método que uso para esto es pdf2text y antiword. Utilizo ambos para volcar el contenido de los pdfs y los documentos de Word en la base de datos. Desde allí, es fácil gatear con Sphinx.

+0

Im utilizando el mismo método como usted y su funcionamiento para mí. – Johny

Cuestiones relacionadas