So entfernen Sie \xa0 von String in Python?

Question

So entfernen Sie \xa0 von String in Python?

Gefragt el 12 de Juni, 2012: Wann wurde die Frage gestellt
425764 Ansichten: Anzahl der Besuche der Frage
5 Antworten: Anzahl der Fragenantworten
Gelöst: Aktueller Status der Frage

Ich verwende derzeit Beautiful Soup zum Parsen einer HTML-Datei und rufe get_text() aber ich habe das Gefühl, dass ich mit einer Menge von \xa0 Unicode für Leerzeichen. Gibt es einen effizienten Weg, um alle von ihnen in Python 2.7 zu entfernen, und ändern Sie sie in Leerzeichen? Ich denke, die allgemeinere Frage wäre, gibt es eine Möglichkeit, Unicode-Formatierung zu entfernen?

Ich habe es versucht: line = line.replace(u'\xa0',' ') wie in einem anderen Thread vorgeschlagen, aber das änderte die \xa0 's zu u's, also habe ich jetzt überall "u "s stattdessen. ):

EDIT: Das Problem scheint behoben zu sein durch str.replace(u'\xa0', ' ').encode('utf-8') sondern einfach tun .encode('utf-8') ohne replace() scheint dazu zu führen, dass es noch seltsamere Zeichen ausspuckt, \xc2 zum Beispiel. Kann jemand das erklären?

Gefragt el 12 de Juni, 2012 von zhuyxn

Answer 1

5 Antworten

Answer 2

17voto

Jonhy Beebop Punkte 1514

Python erkennt es wie ein Leerzeichen, so dass Sie split ohne Args und mit einem normalen Leerzeichen verbinden:

line = ' '.join(line.split())

Beantwortet el 23 de April, 2019 von Jonhy Beebop (1514 Punkte )

Answer 3

15voto

Nicht registrierter Benutzer Punkte 0

Ich lief in dieses gleiche Problem einige Daten aus einer sqlite3-Datenbank mit Python ziehen. Die oben genannten Antworten funktionierten nicht für mich (nicht sicher, warum), aber dies tat: line = line.decode('ascii', 'ignore') Mein Ziel war jedoch das Löschen der \xa0s anstatt sie durch Leerzeichen zu ersetzen.

Ich habe das von dieses sehr hilfreiche Unicode-Tutorial von Ned Batchelder.

Beantwortet el 11 de Dezember, 2012 von Nicht registrierter Benutzer (0 Punkte )

Answer 4

13voto

shiva Punkte 419

Versuchen Sie diesen Code

import re
re.sub(r'[^\x00-\x7F]+','','paste your string here').decode('utf-8','ignore').strip()

Beantwortet el 20 de Marsch, 2017 von shiva (419 Punkte )

Answer 5

11voto

8bitjunkie Punkte 12117

Es ist das Äquivalent eines Leerzeichens, also entfernen Sie es

print(string.strip()) # no more xa0

Beantwortet el 6 de Marsch, 2019 von 8bitjunkie (12117 Punkte )

Answer 6

9voto

andilabs Punkte 20478

Ich bin hier gelandet, als ich nach dem Problem mit nicht druckbaren Zeichen gegoogelt habe. Ich verwende MySQL UTF-8 general_ci und mit der polnischen Sprache umgehen. Bei problematischen Zeichenfolgen muss ich wie folgt vorgehen:

text=text.replace('\xc2\xa0', ' ')

Es ist nur ein schneller Workaround und Sie sollten wahrscheinlich etwas mit der richtigen Kodierungseinstellung versuchen.

Beantwortet el 22 de Februar, 2014 von andilabs (20478 Punkte )

So entfernen Sie \xa0 von String in Python?

Antworten

Empfohlene Fragen

Top-Tags

CodeJaeger.com

Powered by:

So entfernen Sie \xa0 von String in Python?

Antworten

Verwandte Fragen

Empfohlene Fragen

Top-Tags

CodeJaeger.com

Powered by: