Ich habe mich gefragt, ob jemand schon einmal versucht hat, RSS-Links zu extrahieren/zu verfolgen mit SgmlLinkExtractor/CrawlSpider zu extrahieren. Ich kann es nicht zum Laufen bringen...
Ich verwende die folgende Regel:
rules = (
Rule(SgmlLinkExtractor(tags=('link',), attrs=False),
follow=True,
callback='parse\_article'),
)
(wobei zu beachten ist, dass die RSS-Links in der Link Tag).
Ich bin mir nicht sicher, wie ich SgmlLinkExtractor anweisen kann, den Text() des des Links zu extrahieren und nicht die Attribute zu durchsuchen ...
Jede Hilfe ist willkommen, Vielen Dank im Voraus