2009-03-19 9 views
6

Tengo un proyecto donde recojo todos los artículos de Wikipedia que pertenecen a una categoría en particular, saco el volcado de Wikipedia y lo pongo en nuestra base de datos.¿Hay un analizador/vía disponible para analizar archivos de volcado de Wikipedia usando Python?

Así que debería analizar el archivo de volcado de Wikipedia para hacer las cosas. ¿Tenemos un analizador eficiente para hacer este trabajo? Soy un desarrollador de Python. Por lo tanto, prefiero cualquier analizador sintáctico en Python. Si no lo sugiero, intentaré escribir un puerto en python y contribuirlo a la web, para que otras personas lo utilicen o al menos lo prueben.

Así que todo lo que quiero es un analizador de Python para analizar los archivos de descarga de Wikipedia. Empecé a escribir un analizador manual que analiza cada nodo y termina las cosas.

Respuesta

1

No sé acerca de las licencias, pero this está implementado en Python, e incluye la fuente.

1

Otro buen módulo es mwlib de here - es un dolor de instalar con todas las dependencias (por lo menos en Windows), pero funciona bien.

0

Wiki Parser es un analizador muy rápido para archivos de volcado de Wikipedia (~ 2 horas para analizar los 55 GB de Wikipedia en inglés). Produce XML que preserva el contenido y la estructura del artículo.

Luego puede usar python para hacer lo que quiera con la salida XML.

0

Recomiendo encarecidamente mwxml. Es una utilidad para analizar vaciados de Wikimedia escritos por Aaron Halfaker, un investigador científico de la fundación Wikimedia. Se puede instalar con

pip install mwxml 

uso es bastante intuitivo como lo demuestra este ejemplo de la documentation:

>>> import mwxml 

>>> dump = mwxml.Dump.from_file(open("dump.xml")) 

>>> print(dump.site_info.name, dump.site_info.dbname) 
Wikipedia enwiki 

>>> for page in dump: 
...  for revision in page: 
...  print(revision.id) 
... 
1 
2 
3 

que forma parte de un conjunto más amplio de data analysis utilities difundida por la Fundación Wikimedia y su comunidad .

Cuestiones relacionadas