8

Me gustaría obtener archivos HTML estáticos relativamente actualizados del enorme (incluso cuando comprimido) archivo de descarga en inglés XML enwiki-latest-pages-articles.xml.bz2 que descargué del WikiMedia dump page. Parece que hay bastantes herramientas disponibles, aunque la documentación sobre ellas es bastante escasa, así que no sé qué hacen la mayoría de ellas ni si están actualizadas con los últimos vertederos. (Soy bastante bueno en la creación de rastreadores web que pueden rastrear a través de páginas/archivos HTML relativamente pequeños, aunque soy horrible con SQL y XML, y no espero ser muy bueno con al menos otro año). Quiero poder rastrear a través de archivos HTML obtenidos desde un volcado fuera de línea sin recurrir a rastrear Wikipedia en línea.Obtención de archivos HTML estáticos del volcado XML de Wikipedia

¿Alguien sabe de una buena herramienta para obtener archivos HTML estáticos de volcados recientes de Wikipedia XML?

Respuesta

3

Primero, import the data. A continuación, cree los archivos HTML con DumpHTML. Aunque simple en teoría, este proceso podría ser complicado en la práctica debido al volumen de datos involucrados y DumpHTML está un poco descuidado, por lo que no dude en ask for help.

+1

Además, podría llevar semanas o meses. Solía ​​importar basureros de Wiktionary hace varios años, que eran varios órdenes de magnitud más pequeños, y tomó varios días. Hacerlo en una máquina muy carnosa ayudará. Me pregunto si alguien nos puede decir cuánto tardaron en importar. – hippietrail

+0

El tiempo de procesamiento definitivamente será una consideración. En algún momento podré obtener una gran máquina de escritorio, aunque no sé si eso sería suficiente para lidiar con la escala de la que estamos hablando aquí. (Me pregunto si hay una solución paralela.) Sé que hay volcados HTML estáticos disponibles, aunque el más reciente es de 2008, que es mucho menos que ideal. –

+0

¿Qué pasa con la representación dinámica de solo las partes necesarias para representar una página determinada como parte de una secuencia de comandos incluida con una distribución de Ubuntu personalizada sin conexión? @hippietrail –

Cuestiones relacionadas