Wie isoliert man ein einzelnes Element aus einer gescrapten Webseite in R?

Question

Wie isoliert man ein einzelnes Element aus einer gescrapten Webseite in R?

Gefragt el 8 de Juni, 2010: Wann wurde die Frage gestellt
4033 Ansichten: Anzahl der Besuche der Frage
1 Antworten: Anzahl der Fragenantworten
Gelöst: Aktueller Status der Frage

Ich möchte R verwenden, um diese Seite zu scrapen: ( http://www.fifa.com/worldcup/archive/germany2006/results/matches/match=97410001/report.html ) und andere, um die Torschützen und Zeiten zu erfahren.

Bis jetzt habe ich Folgendes:

require(RCurl)
require(XML)

theURL <-"http://www.fifa.com/worldcup/archive/germany2006/results/matches/match=97410001/report.html"
webpage <- getURL(theURL, header=FALSE, verbose=TRUE) 
webpagecont <- readLines(tc <- textConnection(webpage)); close(tc)  

pagetree <- htmlTreeParse(webpagecont, error=function(...){}, useInternalNodes = TRUE)

und das pagetree-Objekt enthält jetzt einen Zeiger auf meine geparste HTML-Datei (glaube ich). Der Teil, den ich will, ist:

<div class="cont")<ul>
<div class="bold medium">Goals scored</div>
        <li>Philipp LAHM (GER) 6', </li>
        <li>Paulo WANCHOPE (CRC) 12', </li>
        <li>Miroslav KLOSE (GER) 17', </li>
        <li>Miroslav KLOSE (GER) 61', </li>
        <li>Paulo WANCHOPE (CRC) 73', </li>
        <li>Torsten FRINGS (GER) 87'</li>
</ul></div>

Aber jetzt weiß ich nicht mehr, wie ich sie isolieren soll, und offen gesagt xpathSApply y xpathApply verwirren mich zu Tode!

Weiß jemand, wie man einen Befehl formuliert, um das Element aus der <div class="cont"> Tags?

Gefragt el 8 de Juni, 2010 von PaulHurleyuk

2 Stimmen

Seien Sie vorsichtig, wenn Sie so etwas tun... In den meisten Fällen erlauben Organisationen wie die FIFA, die FIBA, die NBA usw. nicht die Verwendung ihrer Daten - einfach gesagt: ihre Daten sind ihr Eigentum! Das nächste Mal sollten Sie also einen Dummy-HTML-Code bereitstellen oder einfach auf eine harmlose Seite verweisen! =)

Kommentiert el 8 de Juni, 2010 von aL3xa

Answer 1

1 Antworten

Answer 2

17voto

Shane Punkte 95376

Diese Fragen sind sehr hilfreich, wenn man sich mit Web Scraping und XML in R beschäftigt:

In Bezug auf Ihr spezielles Beispiel bin ich mir zwar nicht sicher, wie die Ausgabe aussehen soll, aber so erhalten Sie die "erzielten Tore" als Zeichenvektor:

theURL <-"http://www.fifa.com/worldcup/archive/germany2006/results/matches/match=97410001/report.html"
fifa.doc <- htmlParse(theURL)
fifa <- xpathSApply(fifa.doc, "//*/div[@class='cont']", xmlValue)
goals.scored <- grep("Goals scored", fifa, value=TRUE)

En xpathSApply ermittelt alle Werte, die den angegebenen Kriterien entsprechen, und gibt sie als Vektor zurück. Beachten Sie, dass ich nach einem div mit class='cont' suche. Die Verwendung von Klassenwerten ist häufig ein guter Weg, um ein HTML-Dokument zu parsen, da sie gute Marker sind.

Sie können dies nach Belieben bereinigen:

> gsub("Goals scored", "", strsplit(goals.scored, ", ")[[1]])
[1] "Philipp LAHM (GER) 6'"    "Paulo WANCHOPE (CRC) 12'" "Miroslav KLOSE (GER) 17'" "Miroslav KLOSE (GER) 61'" "Paulo WANCHOPE (CRC) 73'"
[6] "Torsten FRINGS (GER) 87'"

Beantwortet el 8 de Juni, 2010 von Shane (95376 Punkte )

Wie isoliert man ein einzelnes Element aus einer gescrapten Webseite in R?

Antwort

Empfohlene Fragen

Top-Tags

CodeJaeger.com

Powered by:

Wie isoliert man ein einzelnes Element aus einer gescrapten Webseite in R?

Antwort

Verwandte Fragen

Empfohlene Fragen

Top-Tags

CodeJaeger.com

Powered by: