2011-05-13 35 views
9

ejecuto un sitio de búsqueda de trabajo y necesito convertir archivos doc, docx y pdf a HTML en el servidor Linux CentOS que ejecuta php. Las personas envían estos archivos como currículos. Hasta ahora, encontré que PHPDocx es excelente para convertir docx a html. Pero estoy atascado en doc/pdf. PDFTOHTML da error "mal color" cuando ejecuto pruebas. En cuanto a doc, solo encontré wvwave, que parece complejo y voluminoso de instalar.Convertir doc, docx, pdf a HTML usando PHP linux

¿Alguien tiene alguna idea sobre cómo convertir fácilmente doc/pdf a HTML?

+1

¿Te ¿Tienes un servidor dedicado o usas shard hosting? – pregmatch

+0

PDF a HTML: http://stackoverflow.com/questions/16785198/use-pdf-js-to-statically-convert-a-pdf-to-html – SteAp

+0

PDF a HTML basado en Xpdf: http: // sourceforge. net/projects/pdftohtml/ – SteAp

Respuesta

3

Lo único que se me ocurre es FPDF. Está destinado a crear archivos PDF en PHP, pero también puede abrir archivos PDF. Quizás puedas usar eso como base y desarrollar algún tipo de función toHTML para ello.

Es completamente gratuito y ya tiene algunas extensiones. PODRÍA ayudarte.

http://www.fpdf.org

EDIT: Gracias por la adición a mi mensaje en los comentarios a Pierre:

Puede utilizar FPDI: http://www.setasign.de/products/pdf-php-solutions/fpdi pero el pdf de entrada es igual que una imagen.

No he echado un vistazo a mí mismo hasta ahora, pero esto podría ayudar.

+0

¿Estás enviando spam FPDF? el usuario claramente está pidiendo PDF a HTML, no al revés, – user1914292

+0

¡Lo sé!Pero también puede leer archivos PDF existentes y estoy seguro de que podría desarrollar algo que produzca HTML utilizando FPDF como clase base. – Ch33f

+2

+1 debido a la desventaja injusta del usuario1914292, no leyó la respuesta ni votó negativamente. Pero Ch33f, no puedes usar fdpf como se esperaba. Puede usar fpdi: http://www.setasign.de/products/pdf-php-solutions/fpdi/ pero el pdf de entrada es como una imagen. – Pierre

3

En cuanto a los archivos .doc van forma de tratar OpenOffice/LibreOffice, algo así como:
lowriter -convert-to html doc_file.doc –
En lo que va PDF, si el PDF es una representación gráfica de texto, entonces estás de suerte , lo mejor que puede hacer es intentar convertirlo en una imagen con ImageMagick, si es un texto adecuado, conviene convertirlo fácilmente.

1

Para convertir fácilmente pdf a html, sugeriría pdf2htmlEX que produce HTML excepcional y es lo suficientemente rápido para la conversión en tiempo de ejecución. Primero debe poner un poco de esfuerzo para optimizarlo y compilarlo para su sistema. Hay una forma simple de compilación incluida en el enlace del proyecto.

2

Hay varias herramientas que hay ya que hacer esto, como http://dag.wieers.com/home-made/unoconv/, http://www.phpdocx.com/ (que ya has probado)

http://www.phplivedocx.org/2009/08/13/convert-docx-doc-rtf-to-html-in-php/ parece prometedor.

O, usted podría instalar una versión portátil de LibreOffice en su servidor que permite la conversión de la línea de comandos https://help.libreoffice.org/Common/Starting_the_Software_With_Parameters

Estoy seguro de que habrá tutoriales por ahí (en la zona de soporte LibreOffice)