2010-09-06 28 views

Respuesta

6

Puede usar los filtros diseñados/utilizados por el servicio de indexación. Están diseñados para extraer el texto sin formato de varios documentos, lo que es útil para buscar dentro de un documento. Puede usarlo para archivos de Office, PDF, HTML, etc., básicamente cualquier tipo de archivo que tenga un filtro. El único inconveniente es que debe instalar estos filtros en el servidor, por lo que si no tiene acceso directo al servidor, es posible que esto no sea posible. Algunos filtros vienen preinstalados con Windows, pero algunos, como PDF, deben instalarse ustedes mismos. Para una implementación de C#, consulte este artículo: Using IFilter in C#

+0

Eso es * exactamente * lo que necesitaba. ¡Gracias! –

0

Uso Palabra modelo de objetos, que es la única manera confiable ya formato Word no está abierto y varían de una versión a otra.

+0

Pero, ¿cómo? Esta es una respuesta inútil sin una muestra de código. – KyleM

4

PDF:

Tiene varias opciones.

pdftotext:
Descargar el XPDF utilities. En el archivo .zip, hay varias utilidades de línea de comandos. Uno es pdftotext(.exe). Puede extraer todo el contenido de texto de un archivo PDF con buen comportamiento. Escriba pdftotext -help para obtener más información acerca de algunos de sus parámetros de línea de comandos.

Ghostscript:
Instalar el latest version of Ghostscript (v.8.71). Ghostscript es un intérprete de PostScript y PDF. Se puede utilizar para extraer texto de un PDF, así: texto de salida

gswin32c.exe^
-q^
-sFONTPATH=c:/windows/fonts^
-dNODISPLAY^
-dSAFER^
-dDELAYBIND^
-dWRITESYSTEMDICT^
-dSIMPLE^
-f ps2ascii.ps^
-dFirstPage=3^
-dLastPage=7^
input.pdf^
-dQUIET 

Esta voluntad contenida en las páginas 3-7 de input.pdf a la salida estándar. Puede redirigir esto a un archivo agregando > /path/to/output.txt al comando. (Asegúrese de que el programa de utilidad PostScript ps2ascii.ps está presente en lib subdirectorio de su Ghostscript.)

Si se omite el parámetro -dSIMPLE, la salida de texto se adivinando los saltos de línea y separaciones de palabras. Para obtener detalles, consulte los comentarios dentro del archivo ps2ascii.ps. Incluso puede reemplazar ese parámetro con -dCOMPLEX para obtener información adicional de formato de texto.

+0

XPDF funciona mejor que cualquier cosa que he encontrado – chrisfs

0

Es posible que desee ver PDFBox. Aquí hay un enlace a una página de Proyecto de Código que le muestra cómo usarlo en C#, así como otros comentarios útiles.

http://www.codeproject.com/KB/string/pdf2text.aspx

En cuanto a la Palabra sugerencia de utilizar el modelo de objetos de Word es probablemente la más exacta.

Cuestiones relacionadas