Ich möchte R verwenden, um diese Seite zu scrapen: ( http://www.fifa.com/worldcup/archive/germany2006/results/matches/match=97410001/report.html ) und andere, um die Torschützen und Zeiten zu erfahren.
Bis jetzt habe ich Folgendes:
require(RCurl)
require(XML)
theURL <-"http://www.fifa.com/worldcup/archive/germany2006/results/matches/match=97410001/report.html"
webpage <- getURL(theURL, header=FALSE, verbose=TRUE)
webpagecont <- readLines(tc <- textConnection(webpage)); close(tc)
pagetree <- htmlTreeParse(webpagecont, error=function(...){}, useInternalNodes = TRUE)
und das pagetree-Objekt enthält jetzt einen Zeiger auf meine geparste HTML-Datei (glaube ich). Der Teil, den ich will, ist:
<div class="cont")<ul>
<div class="bold medium">Goals scored</div>
<li>Philipp LAHM (GER) 6', </li>
<li>Paulo WANCHOPE (CRC) 12', </li>
<li>Miroslav KLOSE (GER) 17', </li>
<li>Miroslav KLOSE (GER) 61', </li>
<li>Paulo WANCHOPE (CRC) 73', </li>
<li>Torsten FRINGS (GER) 87'</li>
</ul></div>
Aber jetzt weiß ich nicht mehr, wie ich sie isolieren soll, und offen gesagt xpathSApply
y xpathApply
verwirren mich zu Tode!
Weiß jemand, wie man einen Befehl formuliert, um das Element aus der <div class="cont">
Tags?
2 Stimmen
Seien Sie vorsichtig, wenn Sie so etwas tun... In den meisten Fällen erlauben Organisationen wie die FIFA, die FIBA, die NBA usw. nicht die Verwendung ihrer Daten - einfach gesagt: ihre Daten sind ihr Eigentum! Das nächste Mal sollten Sie also einen Dummy-HTML-Code bereitstellen oder einfach auf eine harmlose Seite verweisen! =)