Tengo un sitio web donde los usuarios cargan documentos en formato .doc y .pdf. Estoy usando Sphinx para realizar búsquedas de texto completo en mi base de datos SQL (MySQL). ¿Cuál es la mejor manera de indexar estos formatos de archivo con Sphinx?Indexar documentos de Word y PDF con Sphinx
10
A
Respuesta
6
Desafortunadamente, Sphinx no puede indexar esos tipos de archivos directamente. Tendrá que importar los contenidos textuales a una base de datos o al an XML format that Sphinx can understand.
9
El método que uso para esto es pdf2text y antiword. Utilizo ambos para volcar el contenido de los pdfs y los documentos de Word en la base de datos. Desde allí, es fácil gatear con Sphinx.
+0
Im utilizando el mismo método como usted y su funcionamiento para mí. – Johny
1
¿Alguien ha usado Tika para indexar otros tipos de documentos, al igual que el plugin SOLR? Apache Tika
Algunos enlaces:
Cuestiones relacionadas
- 1. Cómo generar documentos de Microsoft Word usando Sphinx
- 2. ¿Puedo leer documentos en PDF o Word con Node.js?
- 3. Cómo indexar documentos de Word 2003, 2007 y 2010 usando Lucene.NET
- 4. Conversión de documentos de MS Word a PDF en ASP.NET
- 5. Generando documentos de Word con PHP
- 6. Combinar documentos de Microsoft Word con TortoiseSVN
- 7. Almacenamiento de documentos de Word
- 8. Sphinx temas PDF
- 9. comparando programáticamente documentos de Word
- 10. Comentando documentos PDF de LaTeX con lector de PDF
- 11. Documentos de Sphinx: ¿Eliminar páginas en blanco de los archivos PDF generados?
- 12. Control de versiones para documentos Word
- 13. Cómo indexar archivos .doc y .pdf en asp.net
- 14. ¿Cómo importar documentos de Word en wiki?
- 15. Creación de documentos de Microsoft Word (.docx) en Ruby
- 16. Guardar archivos Word DOCX como PDF
- 17. Conversión de PDF a Word de alta calidad en PHP?
- 18. Documentos de índice PDF en Solr desde C# client
- 19. Uso de Process.Start para imprimir documentos sin mostrar Word
- 20. Extraer texto de archivos PDF y de Word
- 21. Ahorra incrustado documento de Word como PDF
- 22. Uso de documentos de Sphinx ¿cómo puedo especificar los formatos de imagen png para compilaciones HTML y formatos de imagen pdf para compilaciones Latex/PDF?
- 23. Convierta Word (docx) mediante programación a PDF
- 24. Almacenamiento de documentos con Ruby On Rails
- 25. Elasticsearch Parse Error de excepción al intentar indexar PDF
- 26. API de creación de documentos de Word en Java
- 27. Convierta Word Document a PDF usando Java
- 28. Abrir/activar documentos de Word en una macro de VBA
- 29. Problema Desbloqueo de contraseña Documentos PDF protegidos
- 30. Generación de documentos PDF en ASP.NET
, ¿Le recomendar un método sobre otro? –
Depende del idioma del lado del servidor que está utilizando. Si se trata de Ruby/Rails, sé que todas las bibliotecas no son compatibles con XML de forma inmediata, a menos que esté construyendo un sistema desde cero (en lugar de, por ejemplo, usando ActiveRecord). Entonces utilizaría la base de datos. De lo contrario, depende completamente de usted. Si no está usando Ruby, eche un vistazo a las bibliotecas disponibles para su idioma de elección, vea lo que pueden/no pueden hacer. – pat