Quiero utilizar R para raspar esta página: (http://www.fifa.com/worldcup/archive/germany2006/results/matches/match=97410001/report.html) y otros, para obtener los goleadores y los tiempos.Cómo aislar un único elemento de una página web raspada en R
Hasta ahora, esto es lo que tengo:
require(RCurl)
require(XML)
theURL <-"http://www.fifa.com/worldcup/archive/germany2006/results/matches/match=97410001/report.html"
webpage <- getURL(theURL, header=FALSE, verbose=TRUE)
webpagecont <- readLines(tc <- textConnection(webpage)); close(tc)
pagetree <- htmlTreeParse(webpagecont, error=function(...){}, useInternalNodes = TRUE)
y el objeto pagetree ahora contiene un puntero a mi HTML analizada (creo). La parte que quiero es:
<div class="cont")<ul>
<div class="bold medium">Goals scored</div>
<li>Philipp LAHM (GER) 6', </li>
<li>Paulo WANCHOPE (CRC) 12', </li>
<li>Miroslav KLOSE (GER) 17', </li>
<li>Miroslav KLOSE (GER) 61', </li>
<li>Paulo WANCHOPE (CRC) 73', </li>
<li>Torsten FRINGS (GER) 87'</li>
</ul></div>
Pero ahora estoy perdido en cuanto a la forma de aislarlos, y francamente xpathSApply
y xpathApply
confundir los beejeebies fuera de mí!
Entonces, ¿alguien sabe cómo formular un comando para absorber el elemento contenido en las etiquetas <div class="cont">
?
tener cuidado al hacer este tipo de cosas ... En la mayoría de los casos, las organizaciones como la FIFA o la FIBA, NBA etc., no permiten la utilización de sus datos - simplemente declarado: ¡sus datos son de su propiedad! Así que la próxima vez proporcione un código HTML ficticio o simplemente señale un sitio inofensivo. =) – aL3xa