¿Cómo puedo extraer texto de archivos PDF o de Word (eliminar negrita, imágenes y otros medios de formato de texto enriquecido) en C#?Extraer texto de archivos PDF y de Word
Respuesta
Puede usar los filtros diseñados/utilizados por el servicio de indexación. Están diseñados para extraer el texto sin formato de varios documentos, lo que es útil para buscar dentro de un documento. Puede usarlo para archivos de Office, PDF, HTML, etc., básicamente cualquier tipo de archivo que tenga un filtro. El único inconveniente es que debe instalar estos filtros en el servidor, por lo que si no tiene acceso directo al servidor, es posible que esto no sea posible. Algunos filtros vienen preinstalados con Windows, pero algunos, como PDF, deben instalarse ustedes mismos. Para una implementación de C#, consulte este artículo: Using IFilter in C#
Para PDF tomaste un vistazo a TallPDF
también comprobar éste: http://www.codeproject.com/KB/files/PDF_to_TEXT.aspx
Uso Palabra modelo de objetos, que es la única manera confiable ya formato Word no está abierto y varían de una versión a otra.
Pero, ¿cómo? Esta es una respuesta inútil sin una muestra de código. – KyleM
PDF:
Tiene varias opciones.
pdftotext:
Descargar el XPDF utilities. En el archivo .zip, hay varias utilidades de línea de comandos. Uno es pdftotext(.exe)
. Puede extraer todo el contenido de texto de un archivo PDF con buen comportamiento. Escriba pdftotext -help
para obtener más información acerca de algunos de sus parámetros de línea de comandos.
Ghostscript:
Instalar el latest version of Ghostscript (v.8.71). Ghostscript es un intérprete de PostScript y PDF. Se puede utilizar para extraer texto de un PDF, así: texto de salida
gswin32c.exe^
-q^
-sFONTPATH=c:/windows/fonts^
-dNODISPLAY^
-dSAFER^
-dDELAYBIND^
-dWRITESYSTEMDICT^
-dSIMPLE^
-f ps2ascii.ps^
-dFirstPage=3^
-dLastPage=7^
input.pdf^
-dQUIET
Esta voluntad contenida en las páginas 3-7 de input.pdf
a la salida estándar. Puede redirigir esto a un archivo agregando > /path/to/output.txt
al comando. (Asegúrese de que el programa de utilidad PostScript ps2ascii.ps
está presente en lib
subdirectorio de su Ghostscript.)
Si se omite el parámetro -dSIMPLE
, la salida de texto se adivinando los saltos de línea y separaciones de palabras. Para obtener detalles, consulte los comentarios dentro del archivo ps2ascii.ps
. Incluso puede reemplazar ese parámetro con -dCOMPLEX
para obtener información adicional de formato de texto.
XPDF funciona mejor que cualquier cosa que he encontrado – chrisfs
Es posible que desee ver PDFBox. Aquí hay un enlace a una página de Proyecto de Código que le muestra cómo usarlo en C#, así como otros comentarios útiles.
http://www.codeproject.com/KB/string/pdf2text.aspx
En cuanto a la Palabra sugerencia de utilizar el modelo de objetos de Word es probablemente la más exacta.
Docotic.Pdf library se puede utilizar para extraer texto de archivos PDF.
La biblioteca puede extract plain text and text with formatting. Además, se puede recuperar un collection of words o caracteres con rectángulos delimitadores utilizando la API de la biblioteca.
Descargo de responsabilidad: yo trabajo para el vendedor de la biblioteca.
- 1. Extraer texto de archivos PDF en C#
- 2. Extraer texto del PDF
- 3. Cómo extraer notas y partes resaltadas de archivos PDF
- 4. ¿Cómo extraer texto de un PDF?
- 5. Guardar archivos Word DOCX como PDF
- 6. C# Extraer texto del PDF utilizando PdfSharp
- 7. ¿Cómo extraer texto del documento PDF?
- 8. extraer texto del pdf en Javascript
- 9. Convierte archivos Word doc o docx en archivos de texto?
- 10. Indexar documentos de Word y PDF con Sphinx
- 11. texto limpio procedente de archivos PDF
- 12. extrayendo texto de MS archivos de Word en python
- 13. cómo extraer el contenido del texto con formato PDF
- 14. Ahorra incrustado documento de Word como PDF
- 15. Convierta Word Document a PDF usando Java
- 16. Extracción simple de texto PDF en Android?
- 17. ¿Es posible extraer información Meta de archivos de MS Office y/o PDF con PHP?
- 18. ¿La mejor manera de extraer texto de un documento de Word sin usar COM/automatización?
- 19. Convierta Word (docx) mediante programación a PDF
- 20. extraer imagen vectorial de un archivo pdf
- 21. Extraer imagen de PDF con/CCITTFaxDecode filter
- 22. ¿Puedo extraer tablas de PDF usando Perl?
- 23. Extracción de datos del cuadro de texto de varios archivos de Microsoft Word
- 24. ¿Cómo extraer datos de un PDF?
- 25. extraer texto de tex, eliminar etiquetas de latex
- 26. Agregando texto sobre archivos PDF existentes usando reportlab
- 27. ¿Cómo producir archivos pdf de QGraphicsScene con texto copiable?
- 28. ¿Hay una biblioteca C++ para extraer texto de un archivo PDF como PDFBox para Java?
- 29. Java: PDI de Apache: ¿Puedo obtener un texto limpio de los archivos de MS Word (.doc)?
- 30. Conversión de documentos de MS Word a PDF en ASP.NET
Eso es * exactamente * lo que necesitaba. ¡Gracias! –