Ich verwende derzeit Beautiful Soup zum Parsen einer HTML-Datei und rufe get_text()
aber ich habe das Gefühl, dass ich mit einer Menge von \xa0 Unicode für Leerzeichen. Gibt es einen effizienten Weg, um alle von ihnen in Python 2.7 zu entfernen, und ändern Sie sie in Leerzeichen? Ich denke, die allgemeinere Frage wäre, gibt es eine Möglichkeit, Unicode-Formatierung zu entfernen?
Ich habe es versucht: line = line.replace(u'\xa0',' ')
wie in einem anderen Thread vorgeschlagen, aber das änderte die \xa0 's zu u's, also habe ich jetzt überall "u "s stattdessen. ):
EDIT: Das Problem scheint behoben zu sein durch str.replace(u'\xa0', ' ').encode('utf-8')
sondern einfach tun .encode('utf-8')
ohne replace()
scheint dazu zu führen, dass es noch seltsamere Zeichen ausspuckt, \xc2 zum Beispiel. Kann jemand das erklären?