Erkennen und Ausschließen von Ausreißern in einem Pandas DataFrame

Question

Erkennen und Ausschließen von Ausreißern in einem Pandas DataFrame

Gefragt el 21 de April, 2014: Wann wurde die Frage gestellt
618315 Ansichten: Anzahl der Besuche der Frage
3 Antworten: Anzahl der Fragenantworten
Gelöst: Aktueller Status der Frage

Ich habe ein Pandas-Datenrahmen mit wenigen Spalten. Jetzt weiß ich, dass bestimmte Zeilen Ausreißer basierend auf einem bestimmten Spaltenwert sind. Zum Beispiel hat die Spalte Vol alle Werte um 12xx und ein Wert ist 4000 (Ausreißer). Ich möchte diese Zeilen ausschließen, die die Spalte Vol haben.

Also muss ich im Grunde einen Filter auf den Datenrahmen setzen, so dass wir alle Zeilen auswählen, in denen die Werte einer bestimmten Spalte innerhalb, sagen wir, 3 Standardabweichungen vom Mittelwert liegen.

Wie kann man das elegant erreichen?

Gefragt el 21 de April, 2014 von AMM

Answer 1

3 Antworten

Answer 2

2voto

luminousmen Punkte 1651

Meine Funktion zum Entfernen von Ausreißern

def drop_outliers(df, field_name):
    distance = 1.5 * (np.percentile(df[field_name], 75) - np.percentile(df[field_name], 25))
    df.drop(df[df[field_name] > distance + np.percentile(df[field_name], 75)].index, inplace=True)
    df.drop(df[df[field_name] < np.percentile(df[field_name], 25) - distance].index, inplace=True)

Beantwortet el 15 de Juni, 2018 von luminousmen (1651 Punkte )

Answer 3

2voto

tnf Punkte 303

Ich ziehe es vor zu clippen statt zu droppen. Das folgende wird am 2. und 98. Perzentil festgeklemmt.

df_list = list(df)
minPercentile = 0.02
maxPercentile = 0.98

for _ in range(numCols):
    df[df_list[_]] = df[df_list[_]].clip((df[df_list[_]].quantile(minPercentile)),(df[df_list[_]].quantile(maxPercentile)))

Beantwortet el 30 de Oktober, 2018 von tnf (303 Punkte )

Answer 4

-4voto

Ezekiel Ohene Asare Punkte 23

Löschen und Aussortieren von Ausreißern halte ich statistisch für falsch. Es verändert die Daten im Vergleich zu den Originaldaten. Es führt auch dazu, dass die Daten ungleich geformt sind, daher ist der beste Weg, den Effekt der Ausreißer zu reduzieren oder zu vermeiden, indem man die Daten logarithmisch transformiert. Das hat bei mir funktioniert:

np.log(data.iloc[:, :])

Beantwortet el 21 de Oktober, 2018 von Ezekiel Ohene Asare (23 Punkte )

Erkennen und Ausschließen von Ausreißern in einem Pandas DataFrame

Antworten

Empfohlene Fragen

Top-Tags

CodeJaeger.com

Powered by:

Erkennen und Ausschließen von Ausreißern in einem Pandas DataFrame

Antworten

Verwandte Fragen

Empfohlene Fragen

Top-Tags

CodeJaeger.com

Powered by: