Teil einer Regex-Übereinstimmung extrahieren

Question

Teil einer Regex-Übereinstimmung extrahieren

Gefragt el 25 de August, 2009: Wann wurde die Frage gestellt
274188 Ansichten: Anzahl der Besuche der Frage
5 Antworten: Anzahl der Fragenantworten
Gelöst: Aktueller Status der Frage

Ich möchte einen regulären Ausdruck, um den Titel aus einer HTML-Seite zu extrahieren. Derzeit habe ich dies:

title = re.search('<title>.*</title>', html, re.IGNORECASE).group()
if title:
    title = title.replace('<title>', '').replace('</title>', '')

Gibt es einen regulären Ausdruck, der nur den Inhalt von <title> extrahiert, so dass ich die Tags nicht entfernen muss?

Gefragt el 25 de August, 2009 von hoju

10 Stimmen

Wow, ich kann nicht glauben, dass all die Antworten dazu auffordern, die gesamte HTML-Seite zu analysieren, nur um einen einfachen Titel zu extrahieren. Was für ein Overkill!

Kommentiert el 27 de August, 2009 von hoju

5 Stimmen

Der Titel der Frage sagt alles - das angegebene Beispiel geschieht HTML zu sein, aber das allgemeine Problem ist ... allgemein.

Kommentiert el 25 de Kann, 2017 von Phil

Answer 1

5 Antworten

Answer 2

381voto

Krzysztof Krasoń Punkte 24965

Verwenden Sie ( ) in regexp und group(1) in Python, um die erfasste Zeichenkette abzurufen ( re.search wird zurückgegeben None wenn es das Ergebnis nicht findet, also verwenden Sie nicht group() direkt ):

title_search = re.search('<title>(.*)</title>', html, re.IGNORECASE)

if title_search:
    title = title_search.group(1)

Beantwortet el 25 de August, 2009 von Krzysztof Krasoń (24965 Punkte )

Answer 3

69voto

Xavier Guihot Punkte 42435

Beachten Sie, dass ab Python 3.8 und die Einführung von Zuweisungsausdrücke (PEP 572) ( := Operator), ist es möglich, ein wenig zu verbessern auf Die Lösung von Krzysztof Krason indem Sie das Ergebnis der Übereinstimmung direkt in der if-Bedingung als Variable erfassen und im Körper der Bedingung wiederverwenden:

# pattern = '<title>(.*)</title>'
# text = '<title>hello</title>'
if match := re.search(pattern, text, re.IGNORECASE):
  title = match.group(1)
# hello

Beantwortet el 27 de April, 2019 von Xavier Guihot (42435 Punkte )

Answer 4

12voto

Aaron Maenpaa Punkte 112919

Versuchen Sie es mit Erfassungsgruppen:

title = re.search('<title>(.*)</title>', html, re.IGNORECASE).group(1)

Beantwortet el 25 de August, 2009 von Aaron Maenpaa (112919 Punkte )

Answer 5

10voto

kharagpur Punkte 221

Darf ich Ihnen Beautiful Soup empfehlen? Soup ist eine sehr gute Lib, um Ihr gesamtes HTML-Dokument zu analysieren.

soup = BeatifulSoup(html_doc)
titleName = soup.title.name

Beantwortet el 1 de Marsch, 2013 von kharagpur (221 Punkte )

Answer 6

7voto

Randy Punkte 3912

Versuchen Sie es:

title = re.search('<title>(.*)</title>', html, re.IGNORECASE).group(1)

Beantwortet el 25 de August, 2009 von Randy (3912 Punkte )

Teil einer Regex-Übereinstimmung extrahieren

Antworten

Empfohlene Fragen

Top-Tags

CodeJaeger.com

Powered by:

Teil einer Regex-Übereinstimmung extrahieren

Antworten

Verwandte Fragen

Empfohlene Fragen

Top-Tags

CodeJaeger.com

Powered by: