RSS-Bildschirmabstreifer

Question

RSS-Bildschirmabstreifer

Gefragt el 2 de Marsch, 2010: Wann wurde die Frage gestellt
888 Ansichten: Anzahl der Besuche der Frage
3 Antworten: Anzahl der Fragenantworten
Gelöst: Aktueller Status der Frage

Kann jemand mich auf eine fertige RSS-Bildschirm scraper, vorzugsweise in Python, um Volltext-RSS-Feeds zu erhalten zeigen?

Gefragt el 2 de Marsch, 2010 von James Wanchai

0 Stimmen

Wenn Sie nur RSS-Feeds über HTTP abrufen wollen, müssen Sie nur urllib2 . Wollen Sie sie auch analysieren? Wenn ja, wofür?

Kommentiert el 2 de Marsch, 2010 von Dominic Rodger

Answer 1

3 Antworten

Answer 2

3voto

Dominic Rodger Punkte 93942

Es gibt eine gute Liste von ihnen ici in dem Folgendes erwähnt wird Feed Parser , die Sie wie folgt verwenden:

import feedparser

python_wiki_rss_url = "http://www.python.org/cgi-bin/moinmoin/" \
                      "RecentChanges?action=rss_rc"

feed = feedparser.parse( python_wiki_rss_url )

Sie können dann Dinge tun wie:

for item in feed["items"]:
    print item["title"]

Beantwortet el 2 de Marsch, 2010 von Dominic Rodger (93942 Punkte )

Answer 3

1voto

YOU Punkte 113320

feedparser.org ist großartig

Beantwortet el 2 de Marsch, 2010 von YOU (113320 Punkte )

Answer 4

0voto

Recursion Punkte 2777

Es tut mir leid, aber das gibt es in Python nicht, aber in PHP schon. Sie sind herzlich eingeladen, das von mir erstellte System namens scraped zu verwenden und zu verbessern. Es ist ein rezeptbasiertes System, das derzeit nur die NYT, das WSJ und den Economist abarbeitet, obwohl es nicht alle Websites abdeckt. Ich arbeite an einem allumfassenden Algorithmus, aber das ist ein großes Unterfangen. Er umfasst eine Menge Analysen zu den verschiedenen Arten von html und xml. Sogar die 3 oben erwähnten Seiten haben sehr unterschiedliche Algorithmen, um ihre Seiten zu scrapen, wobei WSJ bei weitem der komplexeste ist. Sie vermasseln ihr HTML mit so viel nutzlosem Mist, hauptsächlich, um Sie zu stoppen.

Hier ist das Programm, über das ich sprach, es erfordert lxml, aber es erklärt alles in der Readme. Es liest die Konfigurationsdateien, parst partielle RSS-Feeds, nimmt Links und schabt diese Links, um am Ende eine RSS 2.0 Xml-Datei zu erstellen. Diese konvertiere ich hauptsächlich in ein ebook für meinen Kindle. Ich verwende lxml, BeautifulSoup und feedparser.

http://tinyurl.com/yh3s9pa

Sie können sich auch das Calibre-Projekt ansehen, das eine ähnliche Methode wie ich anwendet, und zwar unter Rezepte.

Beantwortet el 2 de Marsch, 2010 von Recursion (2777 Punkte )

RSS-Bildschirmabstreifer

Antworten

Empfohlene Fragen

Top-Tags

CodeJaeger.com

Powered by:

RSS-Bildschirmabstreifer

Antworten

Verwandte Fragen

Empfohlene Fragen

Top-Tags

CodeJaeger.com

Powered by: