2012-01-29 7 views
7

Estoy intentando acceder a una página de Wikipedia así que para obtener una lista de páginas, y sale el siguiente error:Setting "una cadena de agente de usuario informativa" en getUrl

library(RCurl) 
u <- "http://en.wikipedia.org/w/index.php?title=Special%3APrefixIndex&prefix=tal&namespace=4" 
getURL(u) 
[1] "Scripts should use an informative User-Agent string with contact information, or they may be IP-blocked without notice.\n" 

espero llegar a esa página a través de la API de Wikipedia, pero I am not sure it would work.

Y la cosa es que otras páginas se leen sin problemas, por ejemplo:

u <- "http://en.wikipedia.org/wiki/Wikipedia:Talk" 
getURL(u) 

¿Alguna sugerencia?

Nota al margen: En general yo prefiero a no raspar las páginas wiki y pasar por el api, pero me temo que estas páginas específicas todavía no están disponibles a través de la API ...

Respuesta

13

Según the documentation of RCurl, puede especifique el encabezado adicional agregando un parámetro httpheader:

getURL(u, httpheader = c('User-Agent' = "Informative string with your contact info")) 
+0

Perfecto - ¡gracias! –

Cuestiones relacionadas