Was ich bisher erkennen kann, und nachdem ich mir Ihre Datei angesehen habe, besteht das Problem darin, dass die CSV-Datei, die Sie laden möchten, mehrere Tabellen hat. Es gibt leere Zeilen oder Zeilen, die Tabellentitel enthalten. Versuchen Sie, sich diese Stackoverflow-Antwort anzusehen. Es zeigt, wie man das programmgesteuert erreichen kann.
Ein weiterer dynamischer Ansatz dafür wäre, das CSV-Modul zu verwenden, jede einzelne Zeile einzulesen und Überprüfungen / reguläre Ausdrücke durchzuführen, um zu ermitteln, ob die Zeile (Titel/Überschrift/Werte/leer) ist. Mit diesem Ansatz haben Sie einen weiteren Vorteil, dass Sie Ihre Daten in Python-Objekten nach Belieben aufteilen/anfügen/sammeln können.
Das Einfachste von allen wäre es, die Pandas-Funktion pd.read_clipboard()
zu verwenden, nachdem Sie die Tabelle manuell ausgewählt und in die Zwischenablage kopiert haben, falls Sie die CSV in Excel oder ähnlichem öffnen können.
Irrelevant:
Zusätzlich, unabhängig von Ihrem Problem, aber weil niemand dies erwähnt hat: Ich hatte dasselbe Problem beim Laden einiger Datensätze wie seeds_dataset.txt
von UCI. In meinem Fall trat der Fehler auf, weil einige Trennzeichen mehr Leerzeichen hatten als ein echter Tab \t
. Sehen Sie sich zum Beispiel Zeile 3 im Folgenden an
14.38 14.21 0.8951 5.386 3.312 2.462 4.956 1
14.69 14.49 0.8799 5.563 3.259 3.586 5.219 1
14.11 14.1 0.8911 5.42 3.302 2.7 5 1
Verwenden Sie daher \t+
im Trennzeichenmuster anstelle von \t
.
data = pd.read_csv(path, sep='\t+`, header=None)