¿Cuál sería la forma más fácil de obtener todos los artículos sobre personas de Wikipedia? Sé que puedo descargar un volcado de todas las páginas, pero ¿cómo puedo filtrar esas y obtener solo las de las personas? Necesito todos los que pueda obtener (preferiblemente más de un millón), por lo que usar cualquier tipo de API probablemente no sea una opción.¿Cómo obtengo todos los artículos sobre personas de Wikipedia?
Respuesta
Desde artículos sobre las personas por lo general contienen la plantilla Persondata, sólo puede buscar todos los artículos que contienen Persondata. Se puede encontrar una consulta de la API de ejemplo para hacer precisamente eso aquí:
Does the Wikipedia API support searches for a specific template?
Si va a implementarlo por su cuenta, básicamente lo que necesita es centrarse en el "infobox data" en el volcado de XML.
Referencia: http://code.google.com/p/infobox2rdf/
O también se puede comprobación http://www.freebase.com o http://dbpedia.org
A partir de 2014 tiene otra opción: Pregunta WikiData para todas las entidades donde la propiedad instance of
(P31) tiene el valor human
(Q5).
Lista completa de los seres humanos: https://www.wikidata.org/wiki/Special:WhatLinksHere/Q5
De esa lista, filtrar cualquier cosa que no tenga un sex or gender
(P21), deshacerse de páginas como “científico”
De esta manera, no lo hace Necesito hacer un seguimiento de qué plantillas se usan para las personas en cada edición de idioma diferente (hay 285) de Wikipedia.
- 1. ¿Cómo eliminar todos los artículos de ConcurrentBag?
- 2. ¿Cómo funciona el "enlace de Wikipedia" de Wikipedia?
- 3. ¿Cómo leer todos los artículos de un feed RSS?
- 4. Rack :: Solicitud: ¿cómo obtengo todos los encabezados?
- 5. Confusión sobre Unicode y varios bytes artículos
- 6. WPF: ¿cómo puedo centrar todos los artículos en un WrapPanel?
- 7. PyQt4: ¿Cómo iterar todos los artículos en un QListWidget
- 8. Bootstrap: mostrar todos los artículos de Typeahead en el foco
- 9. Ver todos los artículos TODO en Visual Studio usando GhostDoc
- 10. Compruebe si todos los artículos tienen la misma clase
- 11. Java: ¿cómo obtengo todos los valores seleccionados de una JList?
- 12. ¿Cómo obtengo una lista de todos los ensamblajes cargados actualmente?
- 13. Artículos sobre esquemas de replicación/algoritmos?
- 14. Wikipedia list = search API REST: cómo recuperar también Url de artículos coincidentes
- 15. reactiva acelerador Volviendo Todos los Artículos añadido en el TimeSpan
- 16. ¿Cómo extender los artículos de IntelliSense?
- 17. Cómo obtengo que urllib2 registre TODOS los bytes transferidos
- 18. ¿Cómo obtengo todos los parámetros GET en Silex?
- 19. Posicionamiento CSS Sobre todos los elementos
- 20. API de Wikipedia para geolocalizaciones
- 21. ¿Cómo acceder a Wikipedia desde R?
- 22. Cómo modificar los artículos de KendoUI DropDownList
- 23. ¿Cómo muevo los artículos de la lista?
- 24. Buenos libros/artículos sobre índices espaciales
- 25. ¿Puedo usar contenido de Wikipedia?
- 26. Vista flotante sobre todos los ViewControllers
- 27. Iterar sobre todos los valores dobles posibles
- 28. Wikipedia nombre de artículo (sin contenido)
- 29. Descarga de texto de Wikipedia
- 30. C# - ¿Cómo obtengo el usuario "Todos"?
Realmente no sé lo que estás pidiendo, aparte de más de un millón de artículos de Wikipedia sobre personas (que no es un tema adecuado para SO). –
¿Qué quieres decir exactamente? ¿Estás pidiendo consejos sobre cómo implementar una araña web? –
No, no creo que spidering sea apropiado en este caso. Es posible descargar un archivo de volcado de wikipedia. La pregunta es cómo filtrar el archivo de volcado XML y obtener solo las páginas que tratan de personas. – Johnny