Pandas GroupBy-Spalten mit NaN (fehlenden) Werten

Question

Pandas GroupBy-Spalten mit NaN (fehlenden) Werten

Gefragt el 25 de August, 2013: Wann wurde die Frage gestellt
351894 Ansichten: Anzahl der Besuche der Frage
2 Antworten: Anzahl der Fragenantworten
Gelöst: Aktueller Status der Frage

Ich habe ein DataFrame mit vielen fehlenden Werten in Spalten, die ich gruppieren möchte:

import pandas as pd
import numpy as np
df = pd.DataFrame({'a': ['1', '2', '3'], 'b': ['4', np.NaN, '6']})

In [4]: df.groupby('b').groups
Out[4]: {'4': [0], '6': [2]}

Sehen Sie, dass Pandas die Zeilen mit NaN-Zielwerten fallen gelassen hat. (Ich möchte diese Zeilen einschließen!)

Da ich viele solcher Operationen benötige (viele Spalten haben fehlende Werte) und kompliziertere Funktionen als nur Mediane verwende (typischerweise Random Forests), möchte ich vermeiden, zu komplizierte Code-Stücke zu schreiben.

Irgendwelche Vorschläge? Sollte ich eine Funktion dafür schreiben oder gibt es eine einfache Lösung?

Gefragt el 25 de August, 2013 von Gyula Sámuel Karli

Answer 1

2 Antworten

Answer 2

6voto

Tuetschek Punkte 409

Eine kleine Anmerkung zu Andy Haydens Lösung - sie funktioniert (nicht mehr?), weil np.nan == np.nan False ergibt und die replace-Funktion also tatsächlich nichts tut.

Was bei mir funktioniert hat, war folgendes:

df['b'] = df['b'].apply(lambda x: x if not np.isnan(x) else -1)

(Zumindest ist das das Verhalten für Pandas 0.19.2. Tut mir leid, dass ich es als separate Antwort hinzufüge, ich habe nicht genug Ruf, um zu kommentieren.)

Beantwortet el 23 de Januar, 2017 von Tuetschek (409 Punkte )

Answer 3

5voto

Nicht registrierter Benutzer Punkte 0

Ich habe das bereits beantwortet, aber aus irgendeinem Grund wurde die Antwort in einen Kommentar umgewandelt. Trotzdem ist dies die effizienteste Lösung:

Es ist ziemlich frustrierend, NaNs in Gruppen nicht einschließen (und übertragen) zu können. Das Argument mit R ist nicht überzeugend, da dieses Verhalten nicht mit vielen anderen Dingen konsistent ist. Wie auch immer, der Dummy-Hack ist auch ziemlich schlecht. Die Größe (beinhaltet NaNs) und die Anzahl (ignoriert NaNs) einer Gruppe werden sich jedoch unterscheiden, wenn es NaNs gibt.

dfgrouped = df.groupby(['b']).a.agg(['sum','size','count'])

dfgrouped['sum'][dfgrouped['size']!=dfgrouped['count']] = None

Wenn diese Werte unterschiedlich sind, können Sie den Wert für das Ergebnis der Aggregationsfunktion für diese Gruppe auf None setzen.

Beantwortet el 23 de Kann, 2017 von Nicht registrierter Benutzer (0 Punkte )

Pandas GroupBy-Spalten mit NaN (fehlenden) Werten

Antworten

Empfohlene Fragen

Top-Tags

CodeJaeger.com

Powered by:

Pandas GroupBy-Spalten mit NaN (fehlenden) Werten

Antworten

Verwandte Fragen

Empfohlene Fragen

Top-Tags

CodeJaeger.com

Powered by: