Wie zu schreiben/lesen ein Pandas DataFrame mit MultiIndex von/zu einer ASCII-Datei?

Question

Wie zu schreiben/lesen ein Pandas DataFrame mit MultiIndex von/zu einer ASCII-Datei?

Gefragt el 14 de Juni, 2012: Wann wurde die Frage gestellt
10262 Ansichten: Anzahl der Besuche der Frage
2 Antworten: Anzahl der Fragenantworten
Gelöst: Aktueller Status der Frage

Ich möchte in der Lage sein, eine Pandas DataFrame mit MultiIndexen für den Zeilen- und den Spaltenindex und liest sie aus einer ASCII-Textdatei. Meine Daten sehen so aus:

col_indx = MultiIndex.from_tuples([('A',  'B',  'C'), ('A',  'B',  'C2'), ('A',  'B',  'C3'), 
                                   ('A',  'B2', 'C'), ('A',  'B2', 'C2'), ('A',  'B2', 'C3'), 
                                   ('A',  'B3', 'C'), ('A',  'B3', 'C2'), ('A',  'B3', 'C3'), 
                                   ('A2', 'B',  'C'), ('A2', 'B',  'C2'), ('A2', 'B',  'C3'), 
                                   ('A2', 'B2', 'C'), ('A2', 'B2', 'C2'), ('A2', 'B2', 'C3'), 
                                   ('A2', 'B3', 'C'), ('A2', 'B3', 'C2'), ('A2', 'B3', 'C3')], 
                                   names=['one','two','three']) 
row_indx = MultiIndex.from_tuples([(0,  'North', 'M'), 
                                   (1,  'East',  'F'), 
                                   (2,  'West',  'M'), 
                                   (3,  'South', 'M'), 
                                   (4,  'South', 'F'), 
                                   (5,  'West',  'F'), 
                                   (6,  'North', 'M'), 
                                   (7,  'North', 'M'), 
                                   (8,  'East',  'F'), 
                                   (9,  'South', 'M')], 
                                   names=['n', 'location', 'sex'])
size=len(row_indx), len(col_indx)
data = np.random.randint(0,10, size)
df = DataFrame(data, index=row_indx, columns=col_indx)
print df

Ich habe versucht df.to_csv() y read_csv() aber sie behalten den Index nicht.

Ich habe daran gedacht, ein neues Format mit zusätzlichen Begrenzungszeichen zu erstellen. Zum Beispiel, mit einer Zeile von ---------------- um das Ende der Spaltenindizes zu markieren und ein | um das Ende eines Zeilenindexes zu markieren. Es würde also wie folgt aussehen:

one            | A   A   A   A   A   A   A   A   A  A2  A2  A2  A2  A2  A2  A2  A2  A2
two            | B   B   B  B2  B2  B2  B3  B3  B3   B   B   B  B2  B2  B2  B3  B3  B3
three          | C  C2  C3   C  C2  C3   C  C2  C3   C  C2  C3   C  C2  C3   C  C2  C3
--------------------------------------------------------------------------------------
n location sex :                                                                      
0 North    M   | 2   3   9   1   0   6   5   9   5   9   4   4   0   9   6   2   6   1
1 East     F   | 6   2   9   2   7   0   0   3   7   4   8   1   3   2   1   7   7   5
2 West     M   | 5   8   9   7   6   0   3   0   2   5   0   3   9   6   7   3   4   9
3 South    M   | 6   2   3   6   4   0   4   0   1   9   3   6   2   1   0   6   9   3
4 South    F   | 9   6   0   0   6   1   7   0   8   1   7   6   2   0   8   1   5   3
5 West     F   | 7   9   7   8   2   0   4   3   8   9   0   3   4   9   2   5   1   7
6 North    M   | 3   3   5   7   9   4   2   6   3   2   7   5   5   5   6   4   2   9
7 North    M   | 7   4   8   6   8   4   5   7   9   0   2   9   1   9   7   9   5   6
8 East     F   | 1   6   5   3   6   4   6   9   6   9   2   4   2   9   8   4   2   4
9 South    M   | 9   6   6   1   3   1   3   5   7   4   8   6   7   7   8   9   2   3

Hat Pandas eine Möglichkeit zum Schreiben/Lesen von DataFrames in/aus ASCII-Dateien mit MultiIndexen?

Gefragt el 14 de Juni, 2012 von dailyglen

Answer 1

2 Antworten

Answer 2

11voto

diliop Punkte 9111

Ich bin nicht sicher, welche Version von Pandas Sie verwenden, aber mit 0.7.3 können Sie Ihre DataFrame in eine TSV-Datei übertragen und dabei die Indizes beibehalten:

df.to_csv('mydf.tsv', sep='\t')

Der Grund, warum Sie in TSV und nicht in CSV exportieren müssen, ist, dass die Spaltenüberschriften , Zeichen in ihnen. Damit sollte der erste Teil Ihrer Frage beantwortet sein.

Der zweite Teil ist etwas schwieriger, denn soweit ich das beurteilen kann, müssen Sie vorher eine Vorstellung davon haben, was Ihr DataFrame enthalten soll. Insbesondere müssen Sie das wissen:

Welche Spalten in Ihrem TSV repräsentieren die Zeile MultiIndex
und dass die übrigen Spalten ebenfalls in eine MultiIndex

Um dies zu veranschaulichen, lesen wir die TSV-Datei, die wir oben gespeichert haben, in eine neue DataFrame :

In [1]: t_df = read_table('mydf.tsv', index_col=[0,1,2])
In [2]: all(t_df.index == df.index)
Out[2]: True

Wir haben es also geschafft, zu lesen mydf.tsv in eine DataFrame die denselben Zeilenindex hat wie das Original df . Aber:

In [3]: all(t_df.columns == df.columns)
Out[3]: False

Der Grund dafür ist, dass Pandas (soweit ich das beurteilen kann) keine Möglichkeit hat, die Kopfzeile korrekt in eine MultiIndex . Wie bereits erwähnt, können Sie, wenn Sie im Voraus wissen, dass Ihr TSV-Dateikopf eine MultiIndex dann können Sie wie folgt vorgehen, um das Problem zu beheben:

In [4]: from ast import literal_eval
In [5]: t_df.columns = MultiIndex.from_tuples(t_df.columns.map(literal_eval).tolist(), 
                                              names=['one','two','three'])
In [6]: all(t_df.columns == df.columns)
Out[6]: True

Beantwortet el 15 de Juni, 2012 von diliop (9111 Punkte )

Answer 3

5voto

Andy Hayden Punkte 324102

Sie können die Druckoptionen ändern mit set_option :

display.multi_sparse :
: boolean
Standard True , "sparsam machen" MultiIndex Anzeige
( Elemente in äußeren Ebenen innerhalb von Gruppen)

Jetzt wird der DataFrame wie gewünscht gedruckt:

In [11]: pd.set_option('multi_sparse', False)

In [12]: df
Out[12]: 
one             A   A   A   A   A   A   A   A   A  A2  A2  A2  A2  A2  A2  A2  A2  A2
two             B   B   B  B2  B2  B2  B3  B3  B3   B   B   B  B2  B2  B2  B3  B3  B3
three           C  C2  C3   C  C2  C3   C  C2  C3   C  C2  C3   C  C2  C3   C  C2  C3
n location sex                                                                       
0 North    M    2   1   6   4   6   4   7   1   1   0   4   3   9   2   0   0   6   4
1 East     F    3   5   5   6   4   8   0   3   2   3   9   8   1   6   7   4   7   2
2 West     M    7   9   3   5   0   1   2   8   1   6   0   7   9   9   3   2   2   4
3 South    M    1   0   0   3   5   7   7   0   9   3   0   3   3   6   8   3   6   1
4 South    F    8   0   0   7   3   8   0   8   0   5   5   6   0   0   0   1   8   7
5 West     F    6   5   9   4   7   2   5   6   1   2   9   4   7   5   5   4   3   6
6 North    M    3   3   0   1   1   3   6   3   8   6   4   1   0   5   5   5   4   9
7 North    M    0   4   9   8   5   7   7   0   5   8   4   1   5   7   6   3   6   8
8 East     F    5   6   2   7   0   6   2   7   1   2   0   5   6   1   4   8   0   3
9 South    M    1   2   0   6   9   7   5   3   3   8   7   6   0   5   4   3   5   9

_Hinweis: In älteren Pandas-Versionen war dies pd.set_printoptions(multi_sparse=False)_ .

Beantwortet el 15 de Januar, 2013 von Andy Hayden (324102 Punkte )

Wie zu schreiben/lesen ein Pandas DataFrame mit MultiIndex von/zu einer ASCII-Datei?

Antworten

Empfohlene Fragen

Top-Tags

CodeJaeger.com

Powered by:

Wie zu schreiben/lesen ein Pandas DataFrame mit MultiIndex von/zu einer ASCII-Datei?

Antworten

Verwandte Fragen

Empfohlene Fragen

Top-Tags

CodeJaeger.com

Powered by: