Ich versuche, eine gunzipped Datei (.gz) in Python zu lesen und habe einige Probleme.
Ich habe das gzip-Modul verwendet, um sie zu lesen, aber die Datei ist als utf-8-Textdatei kodiert, so dass sie schließlich ein ungültiges Zeichen liest und abstürzt.
Weiß jemand, wie man gzip-Dateien lesen kann, die als utf-8-Dateien kodiert sind? Ich weiß, dass es ein Codecs-Modul gibt, das helfen kann, aber ich verstehe nicht, wie man es benutzt.
Danke!
import string
import gzip
import codecs
f = gzip.open('file.gz','r')
engines = {}
line = f.readline()
while line:
parsed = string.split(line, u'\u0001')
#do some things...
line = f.readline()
for en in engines:
print(en)
0 Stimmen
Können Sie den Code, den Sie bisher haben, veröffentlichen?
0 Stimmen
Können Sie die utf-8-Datei in ascii konvertieren und dann versuchen, sie zu dekomprimieren? hmm....
0 Stimmen
Wenn Sie einen UnicodeDecodeError erhalten, lesen Sie diesen verwandten Beitrag, der die Verwendung des open('errors')-Parameters zeigt und eine Warnung bei der Verwendung der ISO-8859-1 (latin-1)-Kodierung aufführt: stackoverflow.com/questions/35028683/