¿Cómo puedo extraer texto de archivos PDF o de Word (eliminar negrita, imágenes y otros medios de formato de texto enriquecido) en C#?Extraer texto de archivos PDF y de Word

2010-09-06 Alon Gubkin

Puede usar los filtros diseñados/utilizados por el servicio de indexación. Están diseñados para extraer el texto sin formato de varios documentos, lo que es útil para buscar dentro de un documento. Puede usarlo para archivos de Office, PDF, HTML, etc., básicamente cualquier tipo de archivo que tenga un filtro. El único inconveniente es que debe instalar estos filtros en el servidor, por lo que si no tiene acceso directo al servidor, es posible que esto no sea posible. Algunos filtros vienen preinstalados con Windows, pero algunos, como PDF, deben instalarse ustedes mismos. Para una implementación de C#, consulte este artículo: Using IFilter in C#

Fuente

2010-09-10 03:21:30 pbz

Eso es * exactamente * lo que necesitaba. ¡Gracias! –

Para PDF tomaste un vistazo a TallPDF

también comprobar éste: http://www.codeproject.com/KB/files/PDF_to_TEXT.aspx

Fuente

2010-09-06 16:39:57 Adnan

Uso Palabra modelo de objetos, que es la única manera confiable ya formato Word no está abierto y varían de una versión a otra.

Fuente

2010-09-06 17:28:04

Pero, ¿cómo? Esta es una respuesta inútil sin una muestra de código. – KyleM

PDF:

Tiene varias opciones.

pdftotext:
Descargar el XPDF utilities. En el archivo .zip, hay varias utilidades de línea de comandos. Uno es pdftotext(.exe). Puede extraer todo el contenido de texto de un archivo PDF con buen comportamiento. Escriba pdftotext -help para obtener más información acerca de algunos de sus parámetros de línea de comandos.

Ghostscript:
Instalar el latest version of Ghostscript (v.8.71). Ghostscript es un intérprete de PostScript y PDF. Se puede utilizar para extraer texto de un PDF, así: texto de salida

gswin32c.exe^
-q^
-sFONTPATH=c:/windows/fonts^
-dNODISPLAY^
-dSAFER^
-dDELAYBIND^
-dWRITESYSTEMDICT^
-dSIMPLE^
-f ps2ascii.ps^
-dFirstPage=3^
-dLastPage=7^
input.pdf^
-dQUIET

Esta voluntad contenida en las páginas 3-7 de input.pdf a la salida estándar. Puede redirigir esto a un archivo agregando > /path/to/output.txt al comando. (Asegúrese de que el programa de utilidad PostScript ps2ascii.ps está presente en lib subdirectorio de su Ghostscript.)

Si se omite el parámetro -dSIMPLE, la salida de texto se adivinando los saltos de línea y separaciones de palabras. Para obtener detalles, consulte los comentarios dentro del archivo ps2ascii.ps. Incluso puede reemplazar ese parámetro con -dCOMPLEX para obtener información adicional de formato de texto.

Fuente

2010-09-07 00:00:02

XPDF funciona mejor que cualquier cosa que he encontrado – chrisfs

Es posible que desee ver PDFBox. Aquí hay un enlace a una página de Proyecto de Código que le muestra cómo usarlo en C#, así como otros comentarios útiles.

http://www.codeproject.com/KB/string/pdf2text.aspx

En cuanto a la Palabra sugerencia de utilizar el modelo de objetos de Word es probablemente la más exacta.

Fuente

2010-09-07 14:42:13

Docotic.Pdf library se puede utilizar para extraer texto de archivos PDF.

La biblioteca puede extract plain text and text with formatting. Además, se puede recuperar un collection of words o caracteres con rectángulos delimitadores utilizando la API de la biblioteca.

Descargo de responsabilidad: yo trabajo para el vendedor de la biblioteca.

Fuente

2012-04-29 14:42:55 Bobrovsky

Extraer texto de archivos PDF y de Word

Respuesta

PDF:

Cuestiones relacionadas