Unicode-Fehler ignorieren

Question

Unicode-Fehler ignorieren

Gefragt el 28 de September, 2011: Wann wurde die Frage gestellt
11100 Ansichten: Anzahl der Besuche der Frage
1 Antworten: Anzahl der Fragenantworten
Gelöst: Aktueller Status der Frage

Wenn ich eine Schleife über eine Reihe von URLs laufen lasse, um alle Links (in bestimmten Divs) auf diesen Seiten zu finden, erhalte ich diesen Fehler zurück:

Traceback (most recent call last):
File "file_location", line 38, in <module>
out.writerow(tag['href'])
UnicodeEncodeError: 'ascii' codec can't encode character u'\u2026' in position 0: ordinal not in range(128)

Der Code, den ich im Zusammenhang mit diesem Fehler geschrieben habe, lautet:

out  = csv.writer(open("file_location", "ab"), delimiter=";")
for tag in soup_3.findAll('a', href=True):   
    out.writerow(tag['href'])

Gibt es eine Möglichkeit, dies zu lösen, möglicherweise mit einer if-Anweisung zu ignorieren alle URLs, die Unicode-Fehler haben?

Vielen Dank im Voraus für Ihre Hilfe.

Gefragt el 28 de September, 2011 von Mark Collier

Answer 1

1 Antworten

Answer 2

6voto

Wooble Punkte 84533

Sie können den Aufruf der Writerow-Methode in eine try und fangen die Ausnahme auf, um sie zu ignorieren:

for tag in soup_3.findAll('a', href=True):
    try:
        out.writerow(tag['href'])
    except UnicodeEncodeError:
        pass

aber Sie wollen mit ziemlicher Sicherheit eine andere Kodierung als ASCII für Ihre CSV-Datei wählen (utf-8, es sei denn, Sie haben einen sehr guten Grund, etwas anderes zu verwenden), und öffnen Sie sie mit codecs.open() anstelle des eingebauten open .

Beantwortet el 28 de September, 2011 von Wooble (84533 Punkte )

Unicode-Fehler ignorieren

Antwort

Empfohlene Fragen

Top-Tags

CodeJaeger.com

Powered by:

Unicode-Fehler ignorieren

Antwort

Verwandte Fragen

Empfohlene Fragen

Top-Tags

CodeJaeger.com

Powered by: