Ersetzen von html-Entities durch die entsprechenden utf-8-Zeichen in Python 2.6

Question

Ich habe einen html-Text wie diesen:

&lt;xml ... &gt;

und ich möchte sie in etwas Lesbares umwandeln:

<xml ...>

Gibt es eine einfache (und schnelle) Möglichkeit, dies in Python zu tun?

Gefragt el 8 de April, 2009 von Alexandru

Answer 1

3 Antworten

Answer 2

26voto

vartec Punkte 124396

Python >= 3.4

Offizielle Dokumentation für HTMLParser : Python 3

>>> from html import unescape
>>> unescape('&copy; &euro;')
© €

Offizielle Dokumentation für HTMLParser : Python 3

>>> from html.parser import HTMLParser
>>> pars = HTMLParser()
>>> pars.unescape('&copy; &euro;')
© €

Hinweis: Dies wurde zugunsten von html.unescape() .

Offizielle Dokumentation für HTMLParser : Python 2.7

>>> import HTMLParser
>>> pars = HTMLParser.HTMLParser()
>>> pars.unescape('&copy; &euro;')
u'\xa9 \u20ac'
>>> print _
© €

Beantwortet el 8 de April, 2009 von vartec (124396 Punkte )

Answer 3

3voto

fmalina Punkte 5816

Moderner Ansatz für Python 3:

>>> import html
>>> html.unescape('&copy; &euro;')
© €

Beantwortet el 6 de November, 2019 von fmalina (5816 Punkte )

Answer 4

1voto

Benson Punkte 22021

Es gibt eine Funktion aquí wie in dem von Fred verlinkten Beitrag beschrieben. Hierher kopiert, um die Dinge einfacher zu machen.

Dank an Fred Larson für den Hinweis auf die andere Frage zu SO. Dank an dF für die Veröffentlichung des Links.

Beantwortet el 8 de April, 2009 von Benson (22021 Punkte )