2011-02-23 11 views
5

Por favor, avísenme sobre cómo abordar este problema:¿Cuál es la mejor manera de crear una base de datos a partir de un documento de MS Word?

Tengo una lista secuencial de metadatos en un documento en MS Word. La idea básica es crear un algoritmo de Python para iterar sobre la información, recuperando solo el nombre del PROCESO, cuando se hace una cola, desde una base de datos.

Ejemplo de metadatos:

proceso: Proceso Walker (1965)
referencia exacta:. Walker Process Equipment, Inc. v Food Machinery Corp.

Enlace:.http://caselaw.lp.findlaw.com/scripts/getcase.pl?court=US&vol=382&invol=

Tipo de procedimiento: Certiorari en el Tribunal de los Estados Unidos Apelaciones para el Séptimo Circuito. Partes: Walker Process Equipment, Inc.

Sector: Systems es ...

Fecha de Inicio: de octubre de 12-13 Arguedas, 1965
Resumen: Food Machinery Company ha iniciado una proceso para detener o ralentizar la entrada de competidores mediante el uso de una patente obtenida por fraude. El caso se refería a una patente sobre "difusores oscilantes de acción de rodilla" utilizados en equipos de aireación para sistemas de tratamiento de aguas residuales, y la pregunta era si "el mantenimiento y la ejecución de una patente obtenida por fraude ante la oficina de patentes" podría ser una base para el castigo antimonopolio.
Informe del proceso de evolución: peticionario, en respuesta a responder ...

Importancia: a) Primer caso que estableció un análisis para el diagnóstico de la controversia ...

hay cerca de 200 páginas que contiene la información anterior.

Tengo en mente la idea de implementar un algoritmo en Python para poder romper esta secuencia de información e intentar almacenarla en una base de datos web (una aplicación de código abierto que estoy buscando) para permitir consultas gratuitas.

+0

¿Estas tienen siempre las mismas secciones exactas, en el mismo orden? ¿El "Proceso: ..." es siempre la primera línea? – Orbling

+0

@ S.Lott .: Pensé que era una pregunta perfectamente razonable para SO. Aquí hay un formato de datos, ¿cómo puedo copiar los datos en una base de datos? – Orbling

+0

¿Qué versión de Word es? Si 2007 (.docx) puede ver el [Office Open XML] (http://en.wikipedia.org/wiki/Office_Open_XML) – Jetti

Respuesta

3

Consulte AntiWord para convertir el documento en texto plano, luego grep y sed para convertirlo a un formato que pueda canalizar en su secuencia de comandos.

2

Las versiones recientes de Word le permiten guardar documentos en formato XML. Esto puede hacerse explícitamente "guardando como" y eligiendo XML, o descomprimiendo un archivo .docx y analizando su XML. Los formatos XML están documentados en línea dependiendo de la versión de Word: 2003 Office XML o 2007/2010 Office Open XML.

Cualquier cosa más poderosa (por ejemplo, que requiera la manipulación de los documentos) requiere una interfaz con .NET (MS Open XML SDK o Aspose .Words).

Cuestiones relacionadas