2010-04-21 15 views
18

Estoy buscando descargar el texto completo de Wikipedia para mi proyecto universitario. ¿Tengo que escribir mi propia araña para descargar esto o hay un conjunto de datos públicos de Wikipedia disponible en línea?Descarga de texto de Wikipedia

Para simplemente darle una visión general de mi proyecto, quiero encontrar las palabras interesantes de algunos artículos que me interesan. Pero para encontrar estas palabras interesantes, planeo aplicar tf/idf para calcular la frecuencia de los términos para cada palabra y elige las que tienen alta frecuencia. Pero para calcular el tf, necesito saber el total de ocurrencias en total de Wikipedia.

¿Cómo se puede hacer esto?

+0

Aunque he respondido a su pregunta y que simplemente señalando que Google tiene sus respuestas está mal visto, si googleó 'descargar texto completo de Wikipedia', el enlace es el primer golpe. Lo digo con la esperanza de que ayude a mejorar tu google-fu. –

+0

@Sam Holder Solo quiero confirmarlo. Es este el enlace correcto para descargar todas las páginas -http: //dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2 – Boolean

+0

Sí, eso parece ser todas las páginas actuales, y es probablemente lo que usted quiere, aunque sin saber exactamente es difícil decir con certeza –

Respuesta

20

de Wikipedia: http://en.wikipedia.org/wiki/Wikipedia_database

Wikipedia ofrece copias gratuitas de todo el contenido disponible a los usuarios interesados. Estas bases de datos se pueden usar para duplicación, uso personal, copias de seguridad informales, uso fuera de línea o consultas a bases de datos (como Wikipedia: Mantenimiento). Todo el contenido de texto tiene licencia múltiple bajo la licencia Reconocimiento-CompartirIgual 3.0 de Creative Commons (CC-BY-SA) y la Licencia de documentación libre de GNU (GFDL). Las imágenes y otros archivos están disponibles bajo diferentes términos, tal como se detalla en sus páginas de descripción. Para obtener nuestro consejo sobre el cumplimiento de estas licencias, consulte Wikipedia: Derechos de autor.

Parece que estás de suerte también. Desde la sección de volcado:

Al 12 de marzo de 2010, el último volcado completo del idioma Inglés Wikipedia se puede encontrar en http://download.wikimedia.org/enwiki/20100130/ Este es el primer vaciado total de la Wikipedia en idioma Inglés que se han creado desde 2008. Tenga en cuenta que los vertederos más recientes (como el volcado 20100312) están incompletos.

Así los datos son sólo 9 días de edad :)

+4

Suvité su respuesta sobre los demás simplemente porque hizo más que simplemente publicar un enlace. – UnkwnTech

+0

Corté y pegué también :) –

+0

Solo quiero confirmarlo. Es este el enlace correcto para descargar todas las páginas -http: //dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2 – Boolean

3

Teniendo en cuenta el tamaño del vertedero, que probablemente sería mejor servido mediante la frecuencia de la palabra en el idioma Inglés, o para utilizar la MediaWiki API para sondear páginas al azar (o las páginas más consultadas). Existen marcos para construir bots basados ​​en esta API (en Ruby, C#, ...) que pueden ayudarte.

9

Si necesita una versión de sólo texto, no un XML Mediawiki, a continuación, se puede descargar desde aquí: http://kopiwiki.dsd.sztaki.hu/

+0

¡Genial! Muy buen trabajo. Por favor agregue más idiomas :-) –

+3

El enlace está roto. – tmnol

+0

Nuevo enlace aquí: https: //dsd.sztaki.hu/productos/kopiwiki. – thuzhf