Ich habe ein DataFrame mit vielen fehlenden Werten in Spalten, die ich gruppieren möchte:
import pandas as pd
import numpy as np
df = pd.DataFrame({'a': ['1', '2', '3'], 'b': ['4', np.NaN, '6']})
In [4]: df.groupby('b').groups
Out[4]: {'4': [0], '6': [2]}
Sehen Sie, dass Pandas die Zeilen mit NaN-Zielwerten fallen gelassen hat. (Ich möchte diese Zeilen einschließen!)
Da ich viele solcher Operationen benötige (viele Spalten haben fehlende Werte) und kompliziertere Funktionen als nur Mediane verwende (typischerweise Random Forests), möchte ich vermeiden, zu komplizierte Code-Stücke zu schreiben.
Irgendwelche Vorschläge? Sollte ich eine Funktion dafür schreiben oder gibt es eine einfache Lösung?