3 Stimmen

RSS-Bildschirmabstreifer

Kann jemand mich auf eine fertige RSS-Bildschirm scraper, vorzugsweise in Python, um Volltext-RSS-Feeds zu erhalten zeigen?

0 Stimmen

Wenn Sie nur RSS-Feeds über HTTP abrufen wollen, müssen Sie nur urllib2 . Wollen Sie sie auch analysieren? Wenn ja, wofür?

3voto

Dominic Rodger Punkte 93942

Es gibt eine gute Liste von ihnen ici in dem Folgendes erwähnt wird Feed Parser , die Sie wie folgt verwenden:

import feedparser

python_wiki_rss_url = "http://www.python.org/cgi-bin/moinmoin/" \
                      "RecentChanges?action=rss_rc"

feed = feedparser.parse( python_wiki_rss_url )

Sie können dann Dinge tun wie:

for item in feed["items"]:
    print item["title"]

1voto

YOU Punkte 113320

feedparser.org ist großartig

0voto

Recursion Punkte 2777

Es tut mir leid, aber das gibt es in Python nicht, aber in PHP schon. Sie sind herzlich eingeladen, das von mir erstellte System namens scraped zu verwenden und zu verbessern. Es ist ein rezeptbasiertes System, das derzeit nur die NYT, das WSJ und den Economist abarbeitet, obwohl es nicht alle Websites abdeckt. Ich arbeite an einem allumfassenden Algorithmus, aber das ist ein großes Unterfangen. Er umfasst eine Menge Analysen zu den verschiedenen Arten von html und xml. Sogar die 3 oben erwähnten Seiten haben sehr unterschiedliche Algorithmen, um ihre Seiten zu scrapen, wobei WSJ bei weitem der komplexeste ist. Sie vermasseln ihr HTML mit so viel nutzlosem Mist, hauptsächlich, um Sie zu stoppen.

Hier ist das Programm, über das ich sprach, es erfordert lxml, aber es erklärt alles in der Readme. Es liest die Konfigurationsdateien, parst partielle RSS-Feeds, nimmt Links und schabt diese Links, um am Ende eine RSS 2.0 Xml-Datei zu erstellen. Diese konvertiere ich hauptsächlich in ein ebook für meinen Kindle. Ich verwende lxml, BeautifulSoup und feedparser.

http://tinyurl.com/yh3s9pa

Sie können sich auch das Calibre-Projekt ansehen, das eine ähnliche Methode wie ich anwendet, und zwar unter Rezepte.

CodeJaeger.com

CodeJaeger ist eine Gemeinschaft für Programmierer, die täglich Hilfe erhalten..
Wir haben viele Inhalte, und Sie können auch Ihre eigenen Fragen stellen oder die Fragen anderer Leute lösen.

Powered by:

X