Kann jemand mich auf eine fertige RSS-Bildschirm scraper, vorzugsweise in Python, um Volltext-RSS-Feeds zu erhalten zeigen?
Antworten
Zu viele Anzeigen?Es gibt eine gute Liste von ihnen ici in dem Folgendes erwähnt wird Feed Parser , die Sie wie folgt verwenden:
import feedparser
python_wiki_rss_url = "http://www.python.org/cgi-bin/moinmoin/" \
"RecentChanges?action=rss_rc"
feed = feedparser.parse( python_wiki_rss_url )
Sie können dann Dinge tun wie:
for item in feed["items"]:
print item["title"]
feedparser.org ist großartig
Es tut mir leid, aber das gibt es in Python nicht, aber in PHP schon. Sie sind herzlich eingeladen, das von mir erstellte System namens scraped zu verwenden und zu verbessern. Es ist ein rezeptbasiertes System, das derzeit nur die NYT, das WSJ und den Economist abarbeitet, obwohl es nicht alle Websites abdeckt. Ich arbeite an einem allumfassenden Algorithmus, aber das ist ein großes Unterfangen. Er umfasst eine Menge Analysen zu den verschiedenen Arten von html und xml. Sogar die 3 oben erwähnten Seiten haben sehr unterschiedliche Algorithmen, um ihre Seiten zu scrapen, wobei WSJ bei weitem der komplexeste ist. Sie vermasseln ihr HTML mit so viel nutzlosem Mist, hauptsächlich, um Sie zu stoppen.
Hier ist das Programm, über das ich sprach, es erfordert lxml, aber es erklärt alles in der Readme. Es liest die Konfigurationsdateien, parst partielle RSS-Feeds, nimmt Links und schabt diese Links, um am Ende eine RSS 2.0 Xml-Datei zu erstellen. Diese konvertiere ich hauptsächlich in ein ebook für meinen Kindle. Ich verwende lxml, BeautifulSoup und feedparser.
Sie können sich auch das Calibre-Projekt ansehen, das eine ähnliche Methode wie ich anwendet, und zwar unter Rezepte.
0 Stimmen
Wenn Sie nur RSS-Feeds über HTTP abrufen wollen, müssen Sie nur
urllib2
. Wollen Sie sie auch analysieren? Wenn ja, wofür?