He usado pdftohtml para eliminar tablas de PDF en CSV. Se basa en Xpdf, que es una herramienta de uso más general, que incluye pdftotext. Simplemente lo envuelvo como un Proceso. Inicia una llamada desde C#.
Si usted está buscando algo un poco más de bricolaje, hay la biblioteca iTextSharp - un puerto de Java de iText - y PDFBox (sí, se dice Java - pero tienen una versión .NET a través de IKVM.NET). Aquí hay algunos artículos de CodeProject sobre el uso de iTextSharp y PDFBox de C#.
Y, si usted es realmente un masoquista, puede llamar al PDF IFilter de Adobe con interoperabilidad COM. El IFilter specs es bastante simple, pero supongo que la sobrecarga de interoperabilidad sería significativa.
Editar: Después de volver a leer la pregunta y las respuestas posteriores, queda claro que el OP trata con imágenes en su PDF. En ese caso, deberá extraer las imágenes (las bibliotecas de PDF anteriores pueden hacerlo con bastante facilidad) y ejecutarlas a través de un motor de OCR.
He usado MODI de forma interactiva antes, con resultados decentes.Es COM, por lo que calificó de C# a través de interoperabilidad es también doable y bonitas simple:
' lifted from http://en.wikipedia.org/wiki/Microsoft_Office_Document_Imaging
Dim inputFile As String = "C:\test\multipage.tif"
Dim strRecText As String = ""
Dim Doc1 As MODI.Document
Doc1 = New MODI.Document
Doc1.Create(inputFile)
Doc1.OCR() ' this will ocr all pages of a multi-page tiff file
Doc1.Save() ' this will save the deskewed reoriented images, and the OCR text, back to the inputFile
For imageCounter As Integer = 0 To (Doc1.Images.Count - 1) ' work your way through each page of results
strRecText &= Doc1.Images(imageCounter).Layout.Text ' this puts the ocr results into a string
Next
File.AppendAllText("C:\test\testmodi.txt", strRecText) ' write the OCR file out to disk
Doc1.Close() ' clean up
Doc1 = Nothing
Otros como Tesseract, pero no tengo experiencia directa con él. He oído cosas buenas y malas al respecto, así que supongo que depende en gran medida de la calidad de su fuente.
Esta fue una excelente lista de recursos .. gracias – torial
si el PDF es de un escáner, entonces será realmente sólo sea una imagen y PDFBox no será capaz de obtener texto del mismo: [PDFFox preguntas frecuentes sobre el análisis de texto desde PDF] (http://pdfbox.apache.org/userguide/faq.html#notext). Además, vea la respuesta por @ jm4 – mmcrae