Estoy haciendo un proyecto, para lo cual necesito saber todos los nombres de los artículos de wikipedia (no necesito el contenido). ¿Hay algún lugar donde pueda descargar estos datos?Wikipedia nombre de artículo (sin contenido)
Respuesta
Echa un vistazo this page here on Wikipedia - hay una opción para descargar un archivo con los nombres de los artículos. Aquí está la actual path to the download page:
- All Titles (gzip) - 32+ Mb en el momento de su publicación.
Editar:
Usted puede notar títulos no están en inglés que aparecen en la lista (y algunas malas palabras - ser aconsejado) contenido en enwiki-latest-all-titles-in-ns0.gz
. Esto se debe a que, de forma predeterminada, la mayoría de las personas crean contenido en la wiki principal de inglés (código de idioma en
). Si tuviera que investigar otros vertederos de idiomas, observará que hay diferentes conjuntos de artículos.
Leyendo el the main download page, hay referencias sobre el uso de Wikipedia API para realizar algunos tipos de consultas en Wikipedia, pero no estoy seguro de que esto resuelva su problema (la taxonomía de las páginas no parece proporcionar una forma simple de diferenciar contenido "inglés" versus "contenido en wiki inglés").
No conozco ninguna lista central de artículos, pero si solo necesita una gran cantidad de ellos en lugar de una lista completa (teniendo en cuenta que cualquier lista completa siempre estará desactualizada de todos modos), entonces podría probablemente pongas algo junto con wget para seguir recursivamente los enlaces dentro de wikipedia desde la página principal y almacenar las URL que obtienes.
Si realmente quisiera tomar este tipo de enfoque, podría navegar por los índices como [la lista alfabética] (http://en.wikipedia.org/wiki/Wikipedia:Quick_index) –
Tenga en cuenta, sin embargo, que la Wikipedia específicamente pregunta si * debe * tomar este tipo de enfoque (que en realidad no debería ser necesario) limita la velocidad de acceso a la página para evitar sobrecargar sus servidores. –
- 1. Resumiendo un artículo de Wikipedia
- 2. Fetch un artículo de Wikipedia con Python
- 3. Obtenga las primeras líneas de Wikipedia Artículo
- 4. ¿Puedo usar contenido de Wikipedia?
- 5. ¿Cómo obtener el contenido de Wikipedia usando la API de Wikipedia?
- 6. Extraiga el primer párrafo de un artículo de Wikipedia (Python)
- 7. Obteniendo el contenido de la infobox de Wikipedia con JQuery
- 8. ¿Cómo funciona el "enlace de Wikipedia" de Wikipedia?
- 9. ¿Cómo puedo obtener solo el Infobox analizado de un artículo de wikipedia?
- 10. Extracción de contenido de artículo HTML - Alternativa de Alchemy API
- 11. ¿Cómo obtener Infobox de un artículo de Wikipedia de Mediawiki API?
- 12. Obtener el primer enlace en un artículo de Wikipedia no entre paréntesis
- 13. elisp crear buffer sin nombre del contenido del archivo
- 14. Wikipedia: biblioteca de Java para eliminar la eliminación de texto de wikipedia
- 15. Query páginas de Wikipedia con propiedades
- 16. ¿Cómo recuperar partes del contenido de Wikipedia en la aplicación de Android?
- 17. Descargar el archivo pdf de la wikipedia
- 18. Descarga de texto de Wikipedia
- 19. Analizador para Wikipedia
- 20. cierres Scala en Wikipedia
- 21. API de Wikipedia para geolocalizaciones
- 22. Sin espacio entre bordes antes del primer artículo y después del último artículo
- 23. ¿Puedo obtener un artículo de PriorityQueue sin eliminarlo todavía?
- 24. fusionando el contenido de dos tablas sin duplicar el contenido
- 25. Raspado y análisis de una página de Wikipedia
- 26. depuración de contenido de vista sin procesar
- 27. ¿Cómo rastrear toda la Wikipedia?
- 28. ¿Cómo usar la API de wikipedia si existe?
- 29. Wikipedia API - Acceso al objeto JSON
- 30. Div con imagen de fondo y sin contenido sin mostrar
Estos son solo los artículos en inglés: utilice el primer enlace si desea poder encontrar títulos de artículos (y resúmenes/contenido) para otros idiomas. –
Muchas gracias @AJ – Boolean
Noté que los títulos realmente contienen otros idiomas. ¿Hay alguna forma de obtener solo títulos en inglés? – Boolean