HTML-Entitäten in Python-Strings dekodieren?

Question

HTML-Entitäten in Python-Strings dekodieren?

Gefragt el 18 de Januar, 2010: Wann wurde die Frage gestellt
288807 Ansichten: Anzahl der Besuche der Frage
1 Antworten: Anzahl der Fragenantworten
Gelöst: Aktueller Status der Frage

Ich analysiere gerade HTML mit Beautiful Soup 3, aber es enthält HTML-Entities, die Beautiful Soup 3 nicht automatisch für mich dekodiert:

>>> from BeautifulSoup import BeautifulSoup

>>> soup = BeautifulSoup("<p>&pound;682m</p>")
>>> text = soup.find("p").string

>>> print text
&pound;682m

Wie kann ich die HTML-Entitäten in text zu bekommen "£682m" anstelle von "£682m" .

Gefragt el 18 de Januar, 2010 von jkp

Answer 1

1 Antworten

Answer 2

-5voto

Neil Aggarwal Punkte 483

Dies ist hier wahrscheinlich nicht relevant. Aber diese HTML-Entitäten aus einem ganzen Dokument zu beseitigen, können Sie etwas wie folgt tun: (Nehmen Sie Dokument = Seite und bitte verzeihen Sie den schlampigen Code, aber wenn Sie Ideen haben, wie man es besser machen, Im alle Ohren - Im neu zu diesem).

import re
import HTMLParser

regexp = "&.+?;" 
list_of_html = re.findall(regexp, page) #finds all html entites in page
for e in list_of_html:
    h = HTMLParser.HTMLParser()
    unescaped = h.unescape(e) #finds the unescaped value of the html entity
    page = page.replace(e, unescaped) #replaces html entity with unescaped value

Beantwortet el 18 de Dezember, 2012 von Neil Aggarwal (483 Punkte )

HTML-Entitäten in Python-Strings dekodieren?

Antwort

Empfohlene Fragen

Top-Tags

CodeJaeger.com

Powered by:

HTML-Entitäten in Python-Strings dekodieren?

Antwort

Verwandte Fragen

Empfohlene Fragen

Top-Tags

CodeJaeger.com

Powered by: