2011-11-14 38 views
21

¿Hay un archivo .dll que pueda usar, que use el archivo .pdf como archivo de entrada y .html como salida? Quiero convertir .pdf a .html. Mi colega dice que es muy difícil ir paso a paso, obtener texto/fuente/imagen/márgenes/enlaces, etc. desde el pdf y luego crear un nuevo archivo html con el mismo contenido. Él dice que es casi imposible. Así que estaba pensando, ¿hay alguna DLL que pueda usar como referencia para hacer eso?C# convirtiendo pdf a html

+0

Es complicado, pero ¿por qué lo quieres? –

+0

hay varias herramientas de conversión html a pdf que los proveedores ofrecen, pero no vi ningún pdf a html. Como no sé si la versión completa puede exportar a html, primero debe verificar esto y ver los resultados. Entonces quizás puedas realizar algunos trabajos por lotes que usan acrobat todo. Solo una idea ... – YvesR

+1

Una búsqueda web para "convertir PDF a html" reunirá muchas soluciones posibles. SO no es un buen lugar para sugerencias de productos, por lo tanto, la votación se cierra como "no constructiva". – Richard

Respuesta

8

Escribir un programa para hacerlo definitivamente no es trivial. Si no encuentra ninguna biblioteca .NET para hacer esto (no pude, al menos no es gratis), solo llamaría download this e invocara programáticamente para obtener mi html.

Si tiene tiempo de sobra y/o PDFToHtml no produce resultados aceptables para usted, puede use iText escribir el programa usted mismo. Es una biblioteca de pdf gratuito muy madura. Lo he usado en el pasado para manipular archivos PDF (fusionar, crear, etc.).

ACTUALIZACIÓN

Como se señaló en el comentario de dilema, la biblioteca PDFSharp ofrece una licencia más relajado (MIT) en comparación con la licencia comercial o AGPL ofrecido por iText. Mantenga esto en mente cuando elija su biblioteca. No he usado la biblioteca PDFSharp y no sé cómo se comparan en términos de funcionalidad.

+1

Si alguien hace esto, mejor use pdfsharp, tiene la mejor licencia. –

+4

En las preguntas frecuentes de PDFSharp, afirman que su biblioteca no convierte PDF a HTML y no tienen planes para admitirlo. http://www.pdfsharp.net/wiki/pdfsharpfaq.ashx#Can_I_use_PDFsharp_to_convert_PDF_to_Word_RTF_HTML_11 –

6

se puede descargar esta herramienta gratuita: PDFToHTML

Luego, en su programa solo tenedor Un nuevo proceso y ejecute el archivo ejecutable que pasa el archivo PDF. Acabo de probarlo ahora y parece funcionar bien.