También tenga en cuenta que algunos datos son de propiedad exclusiva y sus propietarios los consideran propiedad intelectual. Algunos sitios, como los sitios de cambio de divisas, los motores de búsqueda y los rastreadores bursátiles, no desean que se rastreen sus datos, ya que su negocio básicamente es vender los mismos datos que usted rastrea.
Dicho esto, en los EE. UU., No se pueden proteger los datos de los derechos de autor, sino cómo se formatean los datos. Por lo tanto, de acuerdo con la legislación de los EE. UU., Está bien obtener datos rastreados siempre que no los almacene en su formato original (HTML).
Pero, en muchos países europeos, los datos en sí pueden ser propiedad de los derechos de autor. Y la web es una bestia global. La gente de Europa puede visitar tu sitio. Que según la ley en algunos países significa que estás haciendo negocios en esos países. Entonces, incluso si está protegido legalmente en los EE. UU., Eso no significa que no será demandado en ninguna otra parte del mundo.
Mi consejo es ir a través del sitio y leer sobre la política de uso. Si el sitio explícitamente no permite el rastreo, entonces no deberías hacerlo. Y como Jim mencionó, respeta robots.txt.
Por otra parte, existe un amplio precedente legal de los tribunales de todo el mundo que legaliza los motores de búsqueda. Y los motores de búsqueda son en sí mismos voraces web crawlers. Por otro lado, parece que casi todos los años al menos una agencia de noticias demanda o intenta demandar a Google por el rastreo en la web.
Con todo lo anterior en mente, tenga mucho cuidado con lo que hace con los datos rastreados. Yo diría que el uso privado está bien siempre y cuando no sobrecargues los servidores. Yo mismo lo hago regularmente para obtener el horario de programación de TV, etc.
+1. Me gustó tu respuesta. ¡Parece que alguien está tratando de sondear un planeta alienígena mientras señaliza la paz y puede seguir tu respuesta como una guía! :PAG –