Parece que el sitio web está bloqueando el acceso directo desde Curl.Descarga de datos de medallas olímpicas en vivo en R
library(XML)
library(RCurl)
theurl <- "http://www.london2012.com/medals/medal-count/"
page <- getURL(theurl)
page # fail
[1] "<HTML><HEAD>\n<TITLE>Access Denied</TITLE>\n</HEAD><BODY>\n<H1>Access Denied</H1>\n \nYou don't have permission to access \"http://www.london2012.com/medals/medal-count/\" on this server.<P>\nReference #18.358a503f.1343590091.c056ae2\n</BODY>\n</HTML>\n"
Tratemos de ver si podemos acceder directamente desde la Tabla.
page <- readHTMLTable(theurl)
no hay suerte Error in htmlParse(doc) : error in creating parser for http://www.london2012.com/medals/medal-count/
¿Cómo ir sobre cómo obtener esta tabla en R?
Actualización: en respuesta a los comentarios y toying, simular una cadena de agente de usuario trabajó para obtener el contenido. Pero readHTMLtable devuelve un error.
page <- getURLContent(theurl, useragent="Mozilla/5.0 (Windows NT 6.1; rv:15.0) Gecko/20120716 Firefox/15.0a2")
Lynx, parece estar bloqueado también. –
Dado que la página se carga en Firefox, ¿ves la fuente y la guardas en el disco? –
Con getURL puede especificar una cadena de agente de usuario falso, que funcionó para obtener los datos. Pero readHTMLTable todavía no se desprende muy bien. Devuelve un error ('Error en los nombres (ans) = encabezado: el atributo' nombres '[13] debe tener la misma longitud que el vector [7] ') no está muy seguro de cómo depurar eso. –