¿Alguien conoce una forma de descargar programáticamente imágenes de Wikimedia Commons sin registrarse para una cuenta de Bot? Parece que la única forma de obtener la aprobación para una cuenta de Bot es si agrega o edita información que ya está en Wikimedia. Si intenta descargar cualquier imagen, sin una cuenta de bot, al usar algunas de las bibliotecas de API, obtendrá mensajes de error en lugar de las imágenes. Parece que bloquean a alguien que no viene desde un navegador. Alguien tiene alguna experiencia con esto? ¿Me estoy perdiendo de algo?Descarga de imágenes de Wikimedia Commons
Respuesta
¿Intentas explicar exactamente lo que quieres hacer? ¿Y qué has intentado? ¿Qué mensaje de error obtuviste? No está muy claro ...
¿Qué bibliotecas ha probado? Si no eres agresivo, no hay restricciones para descargar el contenido de WM. Nunca escuché de ninguna restricción. Algunos agentes de usuario tienen prohibido editar para evitar el spam estúpido, pero realmente, nunca escuché sobre las restricciones de descarga.
Si intenta raspar una gran cantidad de imágenes, descargándolas a través de Commons, lo está haciendo mal (tm). Si está tratando de obtener algunas imágenes, desde 10 hasta 200, debería poder escribir una herramienta decente en unas pocas líneas de código, siempre que respete el requisito de aceleración: cuando la API le dice que disminuya la velocidad, si no lo haces, es probable que los administradores del sistema te echen.
Si necesita un volcado de imagen completo, (estamos hablando de unos pocos TB) intente preguntar en wikitech-l. Teníamos torrentes disponibles cuando había menos imágenes, ahora es más complicado, pero igual doable.
Sobre cuentas de bot. ¿Qué tan profundo has buscado en el sistema? Necesita una cuenta de bot para ediciones rápidas y sin supervisión. Los privilegios de Bot también abren algunas instalaciones, como el aumento del tamaño de las consultas. Pero recuerda: ¿bot cuenta? es simplemente una cuenta de usuario aumentada. ¿Has intentado ejecutar algo con una cuenta clásica?
Habiendo hecho esto yo creo que debo compartir:
http://www.mediawiki.org/wiki/API:Allimages
Este documento API no indicará que usted puede consultar las imágenes:
con el aiprop = url te dan la url de la imagen que estás buscando.
¡Gracias! Este: http://www.mediawiki.org/wiki/API:Categorymembers también es útil. – Hypercube
realmente no encontrar la respuesta que estoy buscando .. pero esta página es interesante :: http://www.makeuseof.com/tag/4-free-tools-for-taking-wikipedia-offline/
Especialmente # 4 .. pero parece que la página no funciona .. proyecto muerto?
Tenga en cuenta que solía haber un problema con el uso de LWP: no es ideal, es práctico, los agentes pueden crear una carga masiva en servidores ya estirados. Existen estrategias sensatas que los usuarios de los agentes pueden seguir para reducir la carga: pregunte en www.mediawiki.org, o en: Bomba de Village: técnica
Si necesita entre diez y un millón de archivos, utilice las herramientas de Magnus Manske para recurse a categorías es una buena elección http://tools.wmflabs.org/magnustools/can_i_haz_files.html produce una lista de comandos UNIX que luego puede ejecutar localmente.
- 1. Descarga de imágenes con scrapy
- 2. descarga imágenes ocultas
- 3. de imágenes descarga maravilloso de URL
- 4. Descarga de imágenes mediante 3000+ C#?
- 5. Otra pregunta más sobre la descarga de imágenes
- 6. página web y dependencias de descarga, incluidas las imágenes CSS
- 7. Supervisión del progreso utilizando Apache Commons FTPClient
- 8. iphone uiwebview descarga la página completa con CSS e imágenes
- 9. html etiqueta de descarga
- 10. Recuperación y la información del autor en Commons wiki
- 11. ¿Cuál es la diferencia entre las dependencias de maven org.apache.commons: commons-io y commons-io: commons-io?
- 12. CLI Commons requiere grupos
- 13. Apache Commons JCI ReloadingClassLoader
- 14. commons beanutils alternative
- 15. Apache Commons FTPClient.listFiles
- 16. Monitoreo para Commons DBCP?
- 17. Java Commons Colecciones removeAll
- 18. Apache Commons FTP problems
- 19. SDK de iPhone: UIWebView para detener la carga/descarga de imágenes
- 20. amazon s3 - descarga de imágenes en lugar de mostrar en el navegador
- 21. Análisis de marcas de wikimedia: ¿los analizadores basados en EBNF no son adecuados?
- 22. Comprobación del tamaño de descarga antes de la descarga
- 23. El uso apropiado de configuración Commons Apache
- 24. JSP - Carga de archivos con Apache Commons
- 25. Genérico equivalente a BeanComparator de Commons BeanUtils
- 26. log4j problema de advertencia - apache commons
- 27. Cualquier reemplazo/competencia de Apache Commons-Configuration?
- 28. Estándar de descarga progresiva
- 29. php, descarga de archivos
- 30. ¿Qué descarga de Eclipse?
Gracias, esto es útil. Tengo un sitio sobre plantas y me gustaría incluir algunas fotos de WikiMedia Commons. Ejecuté una consulta en contra de http://toolserver.org/~daniel/WikiSense/CategoryIntersect.php para obtener una lista de imágenes en una categoría particular y luego ejecuta otra consulta en contra de http://toolserver.org/~magnus/commonsapi.php para obtener los metadatos sobre cada imagen. Luego usé urllib.urlretrieve en la secuencia de comandos python para obtener la imagen real. Aunque lo intenté de nuevo y funciona, también lo hace wget. Hmmm, puede haber tenido errores con la formación de la url. – tomvon
No estoy buscando un vertedero completo, solo unas pocas fotos. También me gustaría crear un complemento de Wordpress que te permita buscar WC y agregar imágenes más fácilmente a tu sitio (con la atribución adecuada). ¿Sabes dónde hay información sobre los límites de aceleración? He hecho algunas lecturas bastante extensas en WC pero no recuerdo haber visto nada acerca de los límites. Ciertamente quiero respetar los Términos de uso. – tomvon
Consulte http://www.mediawiki.org/wiki/Manual:Maxlag_parameter para la regulación. Tenga en cuenta que es una recomendación, por lo que si nunca ha visto un error "maxlag" o códigos de error bloqueados/autobloqueados/ralentizados, probablemente nunca haya sido acelerado o bloqueado. – NicDumZ