Estamos utilizando iTextSharp con una aplicación C# WinForms para analizar un archivo PDF. Usando iTextSharp, puedo extraer fácilmente los datos de texto del archivo PDF. Supongamos que un archivo PDF contiene una imagen rodeada por dos líneas de texto. En este caso, no pude extraer la información sobre la imagen.¿Es posible obtener elementos estructurales de un archivo PDF usando iTextSharp?
Mi requisito es:
- Obtener elementos estructurales del archivo PDF
- Proceso de si cada uno es de tipo texto, imagen, mesa u otra
Por ejemplo, los elementos estructurales son similar a la siguiente:
text :paragraph1
text :paragraph2
Image:Image
text :paragraph3
Table:table info
text :Paragraph4
Si puedo obtener información en un formato como este, puedo entender fácilmente la información de texto, imagen, tabla, encabezado o pie de página.
Entonces, ¿es posible obtener este tipo de información usando iTextSharp? Si es así, por favor ilumíname sobre esto. De lo contrario, ¿podría sugerir algunas otras herramientas capaces de cumplir este requisito?
Gracias a todos,
Saravanan
posible duplicado de http://stackoverflow.com/questions/5945244/extract-image-from-pdf-using-itextsharp – emd
¿Es esto específico para C# 4.0? –
@ Ryan Gates: Sí ... Es para C# 4.0 – Saravanan