Estoy usando itextsharp en vb.net para obtener el contenido de texto de un archivo pdf. La solución funciona bien para algunos archivos pero no para otros incluso simples. El problema es que el stringvalue token se establece en null (un conjunto de cajas cuadradas vacías)extracción de texto Itextsharp
token = New iTextSharp.text.pdf.PRTokeniser(pageBytes)
While token.NextToken()
tknType = token.TokenType()
tknValue = token.StringValue
puedo meassure la longitud del contenido, pero no puedo obtener el contenido real de cuerdas.
Me di cuenta de que esto sucede dependiendo de la fuente del pdf. Si creo un pdf usando Acrobat o PdfCreator con Courier (que por cierto es la fuente predeterminada en mi editor visual studio) puedo obtener todo el contenido de texto. Si el mismo pdf se construye utilizando una fuente diferente, obtuve los cuadros cuadrados vacíos.
Ahora la pregunta es, ¿cómo puedo extraer texto independientemente de la configuración de la fuente?
Gracias
+1 por dar un ejemplo completo del código, en lugar de sólo una sola línea –
es posible extraer el archivo 'servidor ftp' usando iTextSharp? – Munavvar
@Munavvar, lamentablemente no tuve esa experiencia. pero generalmente se puede leer desde FTP en archivos de File stream o binarios y alimentar el ItextSharp –