Pandas DataFrame nach Teilstring-Kriterien filtern

Question

Pandas DataFrame nach Teilstring-Kriterien filtern

Gefragt el 5 de Juli, 2012: Wann wurde die Frage gestellt
1273912 Ansichten: Anzahl der Besuche der Frage
5 Antworten: Anzahl der Fragenantworten
Gelöst: Aktueller Status der Frage

Ich habe ein Pandas DataFrame mit einer Spalte von String-Werten. Ich muss Zeilen basierend auf partiellen String-Übereinstimmungen auswählen.

So etwas wie diese Redewendung:

re.search(pattern, cell_in_question)

einen booleschen Wert zurückgibt. Ich bin vertraut mit der Syntax von df[df['A'] == "hello world"] aber ich kann keine Möglichkeit finden, dasselbe mit einer teilweisen Zeichenkettenübereinstimmung zu tun, z. B. 'hello' .

Gefragt el 5 de Juli, 2012 von euforia

Answer 1

5 Antworten

Answer 2

26voto

cardamom Punkte 5987

Sollten Sie eine Groß- und Kleinschreibung wird nicht berücksichtigt Suche nach einer Zeichenkette in einer Pandas-Dataframe-Spalte:

df[df['A'].str.contains("hello", case=False)]

Beantwortet el 29 de April, 2020 von cardamom (5987 Punkte )

Answer 3

23voto

Mike Punkte 6583

Angenommen, Sie haben Folgendes DataFrame :

>>> df = pd.DataFrame([['hello', 'hello world'], ['abcd', 'defg']], columns=['a','b'])
>>> df
       a            b
0  hello  hello world
1   abcd         defg

Sie können jederzeit die in Operator in einem Lambda-Ausdruck, um Ihren Filter zu erstellen.

>>> df.apply(lambda x: x['a'] in x['b'], axis=1)
0     True
1    False
dtype: bool

Der Trick dabei ist die Verwendung der axis=1 Option in der apply um Elemente zeilenweise an die Lambda-Funktion zu übergeben, im Gegensatz zu spaltenweise.

Beantwortet el 10 de November, 2014 von Mike (6583 Punkte )

Answer 4

16voto

svp Punkte 1554

Sie können versuchen, sie als String zu betrachten:

df[df['A'].astype(str).str.contains("Hello|Britain")]

Beantwortet el 29 de Kann, 2021 von svp (1554 Punkte )

Answer 5

9voto

Angeline Kingsteena Punkte 101

Angenommen, wir haben eine Spalte namens "ENTITY" im Datenrahmen df . Wir können unsere df ,um den gesamten Datenrahmen zu haben df , wobei die Zeilen der Spalte "Entität" nicht "DM" enthalten, indem eine Maske wie folgt verwendet wird:

mask = df['ENTITY'].str.contains('DM')

df = df.loc[~(mask)].copy(deep=True)

Beantwortet el 30 de Marsch, 2021 von Angeline Kingsteena (101 Punkte )

Answer 6

6voto

euforia Punkte 8245

Hier ist, was ich am Ende tun für teilweise Zeichenfolge Übereinstimmungen. Wenn jemand einen effizienteren Weg, dies zu tun hat, lassen Sie mich bitte wissen.

def stringSearchColumn_DataFrame(df, colName, regex):
    newdf = DataFrame()
    for idx, record in df[colName].iteritems():

        if re.search(regex, record):
            newdf = concat([df[df[colName] == record], newdf], ignore_index=True)

    return newdf

Beantwortet el 6 de Juli, 2012 von euforia (8245 Punkte )

Pandas DataFrame nach Teilstring-Kriterien filtern

Antworten

Empfohlene Fragen

Top-Tags

CodeJaeger.com

Powered by:

Pandas DataFrame nach Teilstring-Kriterien filtern

Antworten

Verwandte Fragen

Empfohlene Fragen

Top-Tags

CodeJaeger.com

Powered by: