Tengo que extraer texto de un documento PDF dentro de una región rectangular específica. El flujo de trabajo es el siguiente. En primer lugar, el pdf se convierte en una imagen jpg. Luego, el usuario dibuja el rectángulo de selección en la parte superior de la imagen. Entonces, de alguna manera, necesito extraer todo el texto del documento pdf dentro de esa región de selección. ¿Alguna sugerencia de qué freeware pdf libs puede acceder desde C# para usar?¿Cómo extraer texto de un documento PDF dentro de una región rectangular específica?
Respuesta
Acepto, OCR no es el enfoque para usar aquí. Necesita una biblioteca PDF que pueda extraer el texto junto con las coordenadas del cuadro delimitador.
QuickPDF es una biblioteca comercial (www.quickpdf.com) que puede extraer la información requerida por un precio muy razonable de $ 249. http://www.quickpdflibrary.com/help/quickpdf/DAExtractPageText.php es la función que está buscando. Esto extraerá el texto de toda la página y luego necesitará usar funciones simples de punto y/o rectángulo para limitar el texto al rectángulo seleccionado.
No creo que iText tenga esta capacidad basada en mi investigación.
También debería leer How to extract text from a PDF?
gracias por su respuesta. – davidgale
Le sugiero una vez que haya rasterizado el PDF en una imagen JPEG para usar el reconocimiento de texto (OCR) para extraer el texto dentro de la región seleccionada. Aquí hay un article sobre una biblioteca de OCR para .NET. En lo que respecta a la extracción de texto de PDF, se refiere al here's an article, que ilustra cómo se puede lograr de forma más o menos confiable. El problema será cómo reconocer el texto dentro del rectángulo seleccionado por el usuario.
this no es una opinión. Necesito el 100% de precisión. ocr no es 100% exacto. además de un único documento pdf puede contener texto en múltiples idiomas. Hasta donde yo sé, no hay librerías gratuitas que admitan el uso de más de un idioma a la vez. – davidgale
@davidgale, dudo mucho que exista una solución gratuita para este tipo de problemas. Puede echarle un vistazo a la segunda opción y luego extraer texto de PDF y ver si funciona de manera confiable en su caso. Sin embargo, tendrá que averiguar sobre la región de selección que en mi humilde opinión no será una tarea fácil y no estoy al tanto de ninguna biblioteca de freeware capaz de hacer esto. –
(descargo de responsabilidad - Yo trabajo para Atalasoft en sus productos PDF) Atalasoft's PdfReader hará esto. No es freeware, pero funciona bastante bien. El código es el siguiente:
using (PdfTextDocument doc = new PdfTextDocument(pathToFile)) {
PdfTextPage page = doc.GetPage(pageNumber);
string text = page.GetTextInBox(yourSelection);
}
este código va a extraer los datos perfectamente pdf sobre la base de coordenadas rectangulares usando iTextSharp
List<string> linestringlist = new List<string>();
PdfReader reader = new PdfReader(pdfFilename);
iTextSharp.text.Rectangle rect = new iTextSharp.text.Rectangle(coordinate1, coordinate2, coordinate3, coordinate4);
RenderFilter[] renderFilter = new RenderFilter[1];
renderFilter[0] = new RegionTextRenderFilter(rect);
ITextExtractionStrategy textExtractionStrategy = new FilteredTextRenderListener(new LocationTextExtractionStrategy(), renderFilter);
string text = PdfTextExtractor.GetTextFromPage(reader, 1, textExtractionStrategy);
¿En qué punto está usando 'linestringlist'? –
¿De qué sirve 'linestringList' aquí? –
- 1. ¿Cómo extraer texto del documento PDF?
- 2. ¿Cómo extraer texto de un PDF?
- 3. Región rectangular en una matriz
- 4. ¿Encontrar hipervínculos dentro de un documento PDF?
- 5. Extraer texto del PDF
- 6. Extraer texto de archivos PDF en C#
- 7. volcando el documento PDF (* .pdf) al texto?
- 8. extraer texto del pdf en Javascript
- 9. Búsqueda de caracteres griegos dentro de un documento PDF
- 10. C# Extraer texto del PDF utilizando PdfSharp
- 11. ¿Cómo extraer datos de un PDF?
- 12. Cuál es la forma más rápida de mover una región rectangular (píxel) dentro de un elemento de lienzo HTML5
- 13. Acciones de Sikuli dentro de una región
- 14. Cómo buscar mediante programación un documento PDF en C#
- 15. Extraer texto de archivos PDF y de Word
- 16. ¿Cómo diseñar una prueba unitaria para generar un documento PDF?
- 17. cómo extraer el contenido del texto con formato PDF
- 18. ¿Hay un selector de CSS para seleccionar texto (bloques en línea) dentro de un cuadro rectangular?
- 19. extraer archivos de una revisión específica - mercurial
- 20. iOS - ¿Cómo limitar el MapView a una región específica?
- 21. Beautifulsoup = extraer contenido dentro de una etiqueta
- 22. extraer imagen vectorial de un archivo pdf
- 23. ¿Cómo extraer texto de un archivo PSD?
- 24. ¿Cómo mostrar un documento PDF en una aplicación Microsoft Surface?
- 25. ¿Hay una biblioteca C++ para extraer texto de un archivo PDF como PDFBox para Java?
- 26. Prisma WPF cómo tener vistas duplicadas dentro de una región
- 27. ¿Cómo puedo ver un video dentro de una vista de video en una posición específica?
- 28. ¿Cómo extraer campos PDF de un formulario completo en Python?
- 29. Leer documento de texto dentro del proyecto de estudio visual
- 30. buscando en qué página se encuentra una cadena de búsqueda en un documento pdf usando python
https://stackoverflow.com/q/20606467/1271037 – dovid
Posible duplicado de [Obtener ocurrencias de texto contenidas en un área específica con iTextSharp] (https://stackoverflow.com/questions/20606467/get-text-occurrences-contained-in-a-specified-area-with-itextsharp) – bfontaine