Estoy buscando descargar el texto completo de Wikipedia para mi proyecto universitario. ¿Tengo que escribir mi propia araña para descargar esto o hay un conjunto de datos públicos de Wikipedia disponible en línea?Descarga de texto de Wikipedia
Para simplemente darle una visión general de mi proyecto, quiero encontrar las palabras interesantes de algunos artículos que me interesan. Pero para encontrar estas palabras interesantes, planeo aplicar tf/idf para calcular la frecuencia de los términos para cada palabra y elige las que tienen alta frecuencia. Pero para calcular el tf, necesito saber el total de ocurrencias en total de Wikipedia.
¿Cómo se puede hacer esto?
Aunque he respondido a su pregunta y que simplemente señalando que Google tiene sus respuestas está mal visto, si googleó 'descargar texto completo de Wikipedia', el enlace es el primer golpe. Lo digo con la esperanza de que ayude a mejorar tu google-fu. –
@Sam Holder Solo quiero confirmarlo. Es este el enlace correcto para descargar todas las páginas -http: //dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2 – Boolean
Sí, eso parece ser todas las páginas actuales, y es probablemente lo que usted quiere, aunque sin saber exactamente es difícil decir con certeza –