Tengo un proyecto donde recojo todos los artículos de Wikipedia que pertenecen a una categoría en particular, saco el volcado de Wikipedia y lo pongo en nuestra base de datos.¿Hay un analizador/vía disponible para analizar archivos de volcado de Wikipedia usando Python?
Así que debería analizar el archivo de volcado de Wikipedia para hacer las cosas. ¿Tenemos un analizador eficiente para hacer este trabajo? Soy un desarrollador de Python. Por lo tanto, prefiero cualquier analizador sintáctico en Python. Si no lo sugiero, intentaré escribir un puerto en python y contribuirlo a la web, para que otras personas lo utilicen o al menos lo prueben.
Así que todo lo que quiero es un analizador de Python para analizar los archivos de descarga de Wikipedia. Empecé a escribir un analizador manual que analiza cada nodo y termina las cosas.