13

¿Alguien conoce una forma de descargar programáticamente imágenes de Wikimedia Commons sin registrarse para una cuenta de Bot? Parece que la única forma de obtener la aprobación para una cuenta de Bot es si agrega o edita información que ya está en Wikimedia. Si intenta descargar cualquier imagen, sin una cuenta de bot, al usar algunas de las bibliotecas de API, obtendrá mensajes de error en lugar de las imágenes. Parece que bloquean a alguien que no viene desde un navegador. Alguien tiene alguna experiencia con esto? ¿Me estoy perdiendo de algo?Descarga de imágenes de Wikimedia Commons

Respuesta

3

¿Intentas explicar exactamente lo que quieres hacer? ¿Y qué has intentado? ¿Qué mensaje de error obtuviste? No está muy claro ...

¿Qué bibliotecas ha probado? Si no eres agresivo, no hay restricciones para descargar el contenido de WM. Nunca escuché de ninguna restricción. Algunos agentes de usuario tienen prohibido editar para evitar el spam estúpido, pero realmente, nunca escuché sobre las restricciones de descarga.

Si intenta raspar una gran cantidad de imágenes, descargándolas a través de Commons, lo está haciendo mal (tm). Si está tratando de obtener algunas imágenes, desde 10 hasta 200, debería poder escribir una herramienta decente en unas pocas líneas de código, siempre que respete el requisito de aceleración: cuando la API le dice que disminuya la velocidad, si no lo haces, es probable que los administradores del sistema te echen.

Si necesita un volcado de imagen completo, (estamos hablando de unos pocos TB) intente preguntar en wikitech-l. Teníamos torrentes disponibles cuando había menos imágenes, ahora es más complicado, pero igual doable.

Sobre cuentas de bot. ¿Qué tan profundo has buscado en el sistema? Necesita una cuenta de bot para ediciones rápidas y sin supervisión. Los privilegios de Bot también abren algunas instalaciones, como el aumento del tamaño de las consultas. Pero recuerda: ¿bot cuenta? es simplemente una cuenta de usuario aumentada. ¿Has intentado ejecutar algo con una cuenta clásica?

+1

Gracias, esto es útil. Tengo un sitio sobre plantas y me gustaría incluir algunas fotos de WikiMedia Commons. Ejecuté una consulta en contra de http://toolserver.org/~daniel/WikiSense/CategoryIntersect.php para obtener una lista de imágenes en una categoría particular y luego ejecuta otra consulta en contra de http://toolserver.org/~magnus/commonsapi.php para obtener los metadatos sobre cada imagen. Luego usé urllib.urlretrieve en la secuencia de comandos python para obtener la imagen real. Aunque lo intenté de nuevo y funciona, también lo hace wget. Hmmm, puede haber tenido errores con la formación de la url. – tomvon

+0

No estoy buscando un vertedero completo, solo unas pocas fotos. También me gustaría crear un complemento de Wordpress que te permita buscar WC y agregar imágenes más fácilmente a tu sitio (con la atribución adecuada). ¿Sabes dónde hay información sobre los límites de aceleración? He hecho algunas lecturas bastante extensas en WC pero no recuerdo haber visto nada acerca de los límites. Ciertamente quiero respetar los Términos de uso. – tomvon

+0

Consulte http://www.mediawiki.org/wiki/Manual:Maxlag_parameter para la regulación. Tenga en cuenta que es una recomendación, por lo que si nunca ha visto un error "maxlag" o códigos de error bloqueados/autobloqueados/ralentizados, probablemente nunca haya sido acelerado o bloqueado. – NicDumZ

1

Tenga en cuenta que solía haber un problema con el uso de LWP: no es ideal, es práctico, los agentes pueden crear una carga masiva en servidores ya estirados. Existen estrategias sensatas que los usuarios de los agentes pueden seguir para reducir la carga: pregunte en www.mediawiki.org, o en: Bomba de Village: técnica

Cuestiones relacionadas