¿Puede Python xml ElementTree analizar un archivo xml muy grande?

Estoy tratando de analizar un archivo grande (> 2GB) de datos estructurados de marcado y la memoria no es suficiente para esto. Cuál es la forma óptima de clase de análisis XML para esta condición. Más detalles, por favor.¿Puede Python xml ElementTree analizar un archivo xml muy grande?

Fuente

2010-09-14 zhangwf

La mayoría de las bibliotecas de DOM, como ElementTree, compilan todo el Modelo de documento en el núcleo. Tradicionalmente, cuando su modelo es demasiado grande para caber en la memoria a la vez, necesita usar un analizador más orientado a flujo como xml.sax.

Esto a menudo es más difícil de lo que cabría esperar, especialmente cuando se usa para operaciones de orden superior, como tratar todo el DOM a la vez.

¿Es posible que el documento XML es bastante simple como

<entries> 
    <entry>...</entry> 
    <entry>...</entry> 
</entries>

que permitirá trabajar en subconjuntos de los datos de una manera más amigable elementtree?

Fuente

2010-09-14 08:25:14 msw

muchas gracias. – zhangwf

La única API que he visto que se puede manejar este tipo de cosas es en absoluto pulldom:

http://docs.python.org/library/xml.dom.pulldom.html

Pulldom utiliza el API SAX para construir nodos DOM parciales; tirando de subárboles específicos como un grupo y luego descartándolos cuando hayas terminado, puedes obtener la eficacia de la memoria de SAX con la cordura del uso de DOM.

Es una API incompleta; cuando lo usé tuve que modificarlo para que sea completamente utilizable, pero funciona como una base. Ya no lo uso, así que no recuerdo lo que tuve que agregar; solo una advertencia anticipada.

Es muy lento.

XML es un formato muy pobre para manejar grandes conjuntos de datos. Si tiene algún control sobre los datos de origen y si tiene sentido para el conjunto de datos, es mejor separar los datos en trozos más pequeños que pueda analizar completamente en la memoria.

La otra opción es usar SAX APIs, pero son un dolor serio para hacer algo no trivial directamente.

Fuente

2010-09-14 09:27:04

Echa un vistazo a la función iterparse(). Puede encontrar una descripción de cómo puede usarlo para analizar documentos muy grandes here.

Fuente

2010-09-15 16:18:43 Steven

La función iterparse() resolverá su problema, recientemente analicé fácilmente un documento de 1GB xml con la ayuda de iterparse :) –

¿Puede Python xml ElementTree analizar un archivo xml muy grande?

Respuesta

Cuestiones relacionadas