Ich möchte einen regulären Ausdruck, um den Titel aus einer HTML-Seite zu extrahieren. Derzeit habe ich dies:
title = re.search('<title>.*</title>', html, re.IGNORECASE).group()
if title:
title = title.replace('<title>', '').replace('</title>', '')
Gibt es einen regulären Ausdruck, der nur den Inhalt von <title> extrahiert, so dass ich die Tags nicht entfernen muss?
10 Stimmen
Wow, ich kann nicht glauben, dass all die Antworten dazu auffordern, die gesamte HTML-Seite zu analysieren, nur um einen einfachen Titel zu extrahieren. Was für ein Overkill!
5 Stimmen
Der Titel der Frage sagt alles - das angegebene Beispiel geschieht HTML zu sein, aber das allgemeine Problem ist ... allgemein.