Estoy tratando de extraer un contenido de tablas en documentos DOCX Word y soy nuevo en xml/xpath.Extrayendo tablas de un documento DOCX Word en python
from docx import *
document = opendocx('someFile.docx')
tableList = document.xpath('/w:tbl')
Esto desencadena el error "XPathEvalError: Undefined namespace prefix". Estoy seguro de que es el primero en esperar mientras se desarrolla el guión. Lamentablemente, no pude encontrar un tutorial para python-docx.
¿Podría facilitarnos un ejemplo de extracción de tablas?
dónde has sacado DOCX? ¿Puedes proporcionar una URL? –
Deberías buscar un tutorial de python xml. La función opendocx devuelve un documento xml, de acuerdo con la fuente. El resto de las funciones de la biblioteca python-docx son envoltorios alrededor de la biblioteca lxml python, en http://lxml.de/ o eso me parece a mí. –
@Spencer Rathbun: El siguiente código no genera error, pero curiosamente cede [] 'tableList = document.xpath ('// tbl')' 'print TableList' ¿Es esta alguna característica de DOCX que no hago? ¿entender? – mgierdal