2009-09-08 13 views

¿Cómo raspo las tablas html usando el paquete XML?Raspado de tablas html en marcos de datos R usando el paquete XML

Tome, por ejemplo, esta página de wikipedia en el Brazilian soccer team. Me gustaría leerlo en R y obtener la tabla "lista de todos los partidos que Brasil jugó contra los equipos reconocidos de FIFA" como un marco de datos. ¿Cómo puedo hacer esto?


Para calcular los selectores xpath, echa un vistazo a selectorgadget.com/ - es impresionante – hadley



... o intentarlo más corto:

theurl <- getURL("https://en.wikipedia.org/wiki/Brazil_national_football_team",.opts = list(ssl.verifypeer = FALSE)) 
tables <- readHTMLTable(theurl) 
tables <- list.clean(tables, fun = is.null, recursive = FALSE) 
n.rows <- unlist(lapply(tables, function(t) dim(t)[1])) 

la mesa de recogida es la más larga en la página


La ayuda readHTMLTable también proporciona un ejemplo de lectura de una tabla de texto sin formato de un elemento HTML PRE utilizando htmlParse(), getNodeSet(), textConnection() y read.table() –


# Download page using RCurl 
# You may need to set proxy details, etc., in the call to getURL 
theurl <- "http://en.wikipedia.org/wiki/Brazil_national_football_team" 
webpage <- getURL(theurl) 
# Process escape characters 
webpage <- readLines(tc <- textConnection(webpage)); close(tc) 

# Parse the html tree, ignoring errors on the page 
pagetree <- htmlTreeParse(webpage, error=function(...){}) 

# Navigate your way through the tree. It may be possible to do this more efficiently using getNodeSet 
body <- pagetree$children$html$children$body 
divbodyContent <- body$children$div$children[[1]]$children$div$children[[4]] 
tables <- divbodyContent$children[names(divbodyContent)=="table"] 

#In this case, the required table is the only one with class "wikitable sortable" 
tableclasses <- sapply(tables, function(x) x$attributes["class"]) 
thetable <- tables[which(tableclasses=="wikitable sortable")]$table 

#Get columns headers 
headers <- thetable$children[[1]]$children 
columnnames <- unname(sapply(headers, function(x) x$children$text$value)) 

# Get rows from table 
content <- c() 
for(i in 2:length(thetable$children)) 
    tablerow <- thetable$children[[i]]$children 
    opponent <- tablerow[[1]]$children[[2]]$children$text$value 
    others <- unname(sapply(tablerow[-1], function(x) x$children$text$value)) 
    content <- rbind(content, c(opponent, others)) 

# Convert to data frame 
colnames(content) <- columnnames 

Editado para añadir:

Salida de ejemplo

     Opponent Played Won Drawn Lost Goals for Goals against  % Won 
    1    Argentina  94 36 24 34  148   150 38.3% 
    2    Paraguay  72 44 17 11  160   61 61.1% 
    3     Uruguay  72 33 19 20  127   93 45.8% 

Para cualquier otra persona que tenga la suerte de encontrar esta publicación, esta secuencia de comandos probablemente no se ejecutará a menos que el usuario agregue su información "User-Agent", como se describe en esta otra publicación útil: http://stackoverflow.com/questions/9056705/setting-an-informative-user-agent-string-in-geturl – Rguy


Otra opción usar Xpath.


theurl <- "http://en.wikipedia.org/wiki/Brazil_national_football_team" 
webpage <- getURL(theurl) 
webpage <- readLines(tc <- textConnection(webpage)); close(tc) 

pagetree <- htmlTreeParse(webpage, error=function(...){}, useInternalNodes = TRUE) 

# Extract table header and contents 
tablehead <- xpathSApply(pagetree, "//*/table[@class='wikitable sortable']/tr/th", xmlValue) 
results <- xpathSApply(pagetree, "//*/table[@class='wikitable sortable']/tr/td", xmlValue) 

# Convert character vector to dataframe 
content <- as.data.frame(matrix(results, ncol = 8, byrow = TRUE)) 

# Clean up the results 
content[,1] <- gsub(" ", "", content[,1]) 
tablehead <- gsub(" ", "", tablehead) 
names(content) <- tablehead 

Produce este resultado

> head(content) 
    Opponent Played Won Drawn Lost Goals for Goals against % Won 
1 Argentina  94 36 24 34  148   150 38.3% 
2 Paraguay  72 44 17 11  160   61 61.1% 
3 Uruguay  72 33 19 20  127   93 45.8% 
4  Chile  64 45 12 7  147   53 70.3% 
5  Peru  39 27  9 3  83   27 69.2% 
6 Mexico  36 21  6 9  69   34 58.3% 

Llamada excelente para usar xpath. Punto menor: puede simplificar levemente el argumento de ruta cambiando // */a //, p. Ej. "// table [@ class = 'wikitable ordenable']/tr/th" –


Me aparece un error "Las secuencias de comandos deben usar una cadena informativa de usuario-agente con información de contacto, o pueden estar bloqueadas por IP sin previo aviso." [2] "¿Existe alguna forma de implementar este método? – pssguy


opciones (RCurlOptions = list (useragent =" zzzz ")). Véase también http://www.omegahat.org/RCurl/FAQ.html sección" Runtime "para otras alternativas y discusión. – learnr


El rvest lo largo con xml2 es otro paquete popular para analizar htm l páginas web.

theurl <- "http://en.wikipedia.org/wiki/Brazil_national_football_team" 
tables<-html_nodes(file, "table") 
table1 <- html_table(tables[4], fill = TRUE) 

La sintaxis es más fácil de usar que el paquete XML y para la mayoría página Web o código XML proporciona todas las necesidades Opciones queridos.


El read_html da El error "'file: ///Users/grieb/Auswertungen/tetyana-snp-2016/data/snp-nexus/15/SNP%20Annotation%20Tool.html' no existe en el directorio de trabajo actual ('/ Users/grieb/Auswertungen/tetyana-snp-2016/code '). " – scs

Cuestiones relacionadas