trampas legales o éticas para el rastreador web?

Se me ha encomendado la tarea de automatizar la comparación de los inventarios de un cliente de varios escaparates web no relacionados. Estos escaparates no ofrecen API, por lo que estoy obligado a escribir un rastreador en python que catalogará y comparará los productos y precios disponibles entre tres sitios web semanalmente.trampas legales o éticas para el rastreador web?

¿Debo esperar que se prohíba la dirección IP del rastreador o podrían presentarse reclamos legales contra la fuente? Parece bastante inocuo (aproximadamente 500 solicitudes de páginas http separadas por un segundo por solicitud, realizadas una vez a la semana), pero este es un territorio completamente nuevo para mí.

Fuente

2011-01-12 Fancypants_MD

Ético: Debe cumplir con the robots.txt protocol para asegurarse de que cumple con los deseos de los propietarios del sitio. La biblioteca estándar de Python incluye the robotparser module para este propósito.

Fuente

2011-01-12 00:04:10 Jim

También tenga en cuenta que algunos datos son de propiedad exclusiva y sus propietarios los consideran propiedad intelectual. Algunos sitios, como los sitios de cambio de divisas, los motores de búsqueda y los rastreadores bursátiles, no desean que se rastreen sus datos, ya que su negocio básicamente es vender los mismos datos que usted rastrea.

Dicho esto, en los EE. UU., No se pueden proteger los datos de los derechos de autor, sino cómo se formatean los datos. Por lo tanto, de acuerdo con la legislación de los EE. UU., Está bien obtener datos rastreados siempre que no los almacene en su formato original (HTML).

Pero, en muchos países europeos, los datos en sí pueden ser propiedad de los derechos de autor. Y la web es una bestia global. La gente de Europa puede visitar tu sitio. Que según la ley en algunos países significa que estás haciendo negocios en esos países. Entonces, incluso si está protegido legalmente en los EE. UU., Eso no significa que no será demandado en ninguna otra parte del mundo.

Mi consejo es ir a través del sitio y leer sobre la política de uso. Si el sitio explícitamente no permite el rastreo, entonces no deberías hacerlo. Y como Jim mencionó, respeta robots.txt.

Por otra parte, existe un amplio precedente legal de los tribunales de todo el mundo que legaliza los motores de búsqueda. Y los motores de búsqueda son en sí mismos voraces web crawlers. Por otro lado, parece que casi todos los años al menos una agencia de noticias demanda o intenta demandar a Google por el rastreo en la web.

Con todo lo anterior en mente, tenga mucho cuidado con lo que hace con los datos rastreados. Yo diría que el uso privado está bien siempre y cuando no sobrecargues los servidores. Yo mismo lo hago regularmente para obtener el horario de programación de TV, etc.

Fuente

2011-01-12 02:04:31 slebetman

Sí, debe (se espera que su IP esté prohibida para el rastreo de pantallas por sindicación no autorizada). Además, los propietarios de sitios menos escrupulosos y más creativos, en lugar de bloquear el robot, intentarán bloquearlo o confundirlo enviándolo con datos incorrectos o enviándolo deliberadamente a datos falsos.

Si su modelo de negocio se basa en un rozamiento de pantalla no autorizado, fallará.

Normalmente, les conviene a los propietarios del sitio permitir el rozamiento de la pantalla, para que pueda obtener el permiso (es poco probable que establezcan una API estable para usted a menos que les pague mucho dinero para hacerlo) .

Si no te dan permiso, probablemente no deberías.

Algunos consejos:

Dale administradores de sitios de sindicación autorizados un mecanismo para pedirle que deje de raspado de su sitio, en caso de que su bot les causa problemas de funcionamiento.Esta podría ser una dirección de correo electrónico, pero por favor monitorealo.
Si no puede ponerse en contacto con el propietario del sitio para obtener permiso, asegúrese de que sea fácil contactarlo si fuera necesario (ingrese una URL o dirección de correo electrónico en la cadena UA del robot)
Aclare cuál es el propósito de su raspado de pantalla, y cuáles son sus políticas de retención y de otro tipo.

Si lo hace de buena fe, de forma transparente, es poco probable que sea bloqueado por un humano a menos que decida lo que está haciendo está fundamentalmente en contra de su modelo de negocio.

Si se comporta de manera clandestina, de capa y espada, puede esperar hostilidad.

Fuente

2011-01-12 08:34:06 MarkR

+1. Me gustó tu respuesta. ¡Parece que alguien está tratando de sondear un planeta alienígena mientras señaliza la paz y puede seguir tu respuesta como una guía! :PAG –

trampas legales o éticas para el rastreador web?

Respuesta

Cuestiones relacionadas