2009-10-31 28 views
5

¿Hay una biblioteca que tenga una clase para extraer el texto de un archivo pdf en C# .net? He intentado algunos pero la documentación es terrible, así que no he podido despegar. También si proporciona una clase para extraer imágenes que serían un plus. ¿Alguna sugerencia? Thx por adelantado.Conversión de PDF en texto viable usando C#

También necesito poder implementarlo en una aplicación existente.

Respuesta

3

¿Has probado PDFKit.NET? Tiene documentos razonables y algunos buenos ejemplos. Está diseñado para un entorno de servidor, por lo que es un poco caro.

EDIT Aquí hay una biblioteca de código abierto en SourceForge llamada iTextSharp. Es gratis para proyectos de código abierto. No lo he usado, pero parece prometedor. Here is a tutorial para ello que tiene muchos ejemplos de código.

+1

+1 gratis es bueno. –

0

hemos utilizado el software snowbound en el trabajo para la conversión de imágenes. aparentemente también admite text extraction. sin embargo, no es gratis.

+0

no estoy seguro de por qué el enlace no funcionará. pero puedes ir a snowbound.com -> soluciones -> extracción de texto –

1

Hay un par de formas en que puede ir aquí: muchas dependerán de si desea conservar la formateada (es decir, los párrafos y otros elementos de diseño) del PDF original.

Si está considerando soluciones comerciales, ofrecemos dos productos que pueden cumplir sus requisitos. Uno de ellos es EasyPDF SDK, que tiene llamadas de un solo disparo ExtractText() y ExtractText2() que sacan texto de sus archivos PDF como texto sin formato.

Tenga en cuenta que la salida de estas llamadas es bastante simple y perderá muchos de los elementos de diseño originales. Son agradables para la extracción de texto simple, pero pueden no ser excelentes si su PDF contiene datos tabulares.

Si está trabajando con tablas, una mejor alternativa podría ser desplegarlo como texto enriquecido. Tenemos una herramienta llamada EasyConverter SDK orientada para documentos comerciales que hace eso con una llamada de función única.

Con EasyConverter SDK, se conservará el diseño de su PDF original.

Ambos soportan C# así que no dude en consultar las versiones de evaluación en www.pdfonline.com si está interesado. Trabajo para el proveedor, así que tome esta sugerencia como una especie de madre que ama a su propio hijo :-) He estado navegando por stackoverflow.com en busca de fragmentos de código durante mucho tiempo, pero solo recientemente comencé a publicar, así que si tiene cualquier pregunta con cualquiera de las API solo házmelo saber y te puedo ayudar. ¡Aclamaciones!

1

Docotic.Pdf library puede extraer texto e imágenes de archivos PDF.

Puede extraer texto de todo el documento de algunas páginas solamente. La biblioteca puede extraer texto sin formato y también fragmentos de texto con coordenadas.

Puede extraer imágenes de archivos PDF (como archivos JPEG y TIFF).

Aquí hay un par de muestras para su tarea:

responsabilidad: yo trabajo para Milagro de bits, el proveedor de la biblioteca.