Strings in Wörter mit mehreren Wortbegrenzern aufteilen

Question

Strings in Wörter mit mehreren Wortbegrenzern aufteilen

Gefragt el 29 de Juni, 2009: Wann wurde die Frage gestellt
844961 Ansichten: Anzahl der Besuche der Frage
5 Antworten: Anzahl der Fragenantworten
Gelöst: Aktueller Status der Frage

Ich denke, was ich tun möchte, ist eine ziemlich häufige Aufgabe, aber ich habe keine Referenz im Web gefunden. Ich habe Text mit Satzzeichen und möchte eine Liste der Wörter.

"Hey, you - what are you doing here!?"

sollte sein

['hey', 'you', 'what', 'are', 'you', 'doing', 'here']

Aber Pythons str.split() funktioniert nur mit einem Argument, also habe ich alle Wörter mit dem Satzzeichen, nachdem ich mit Leerzeichen aufgeteilt habe. Irgendwelche Ideen?

Gefragt el 29 de Juni, 2009 von ooboo

7 Stimmen

docs.python.org/library/re.html

Kommentiert el 29 de Juni, 2009 von mtasic85

13 Stimmen

Python's str.split() funktioniert auch ohne Argumente überhaupt

Kommentiert el 8 de Kann, 2018 von Ivan Vinogradov

Answer 1

5 Antworten

Answer 2

511voto

Louis LC Punkte 5046

Ein weiterer schneller Weg, dies ohne RegExp zu tun, besteht darin, die Zeichen zuerst zu ersetzen, wie unten angegeben:

>>> 'a;bcd,ef g'.replace(';',' ').replace(',',' ').split()
['a', 'bcd', 'ef', 'g']

Beantwortet el 27 de August, 2011 von Louis LC (5046 Punkte )

93 Stimmen

Schnell und einfach, aber perfekt für meinen Fall (meine Trennzeichen waren eine kleine, bekannte Menge)

Kommentiert el 1 de September, 2012 von Andy Baker

10 Stimmen

Perfekt für den Fall, dass Sie keinen Zugriff auf die RE-Bibliothek haben, wie zum Beispiel bestimmte kleine Mikrocontroller. :-)

Kommentiert el 1 de Kann, 2014 von tu-Reinstate Monica-dor duh

19 Stimmen

Ich denke, dass dies auch expliziter ist als RE, also ist es irgendwie Anfänger freundlicher. Manchmal braucht man nicht die allgemeine Lösung für alles.

Kommentiert el 24 de Januar, 2015 von Adam Hughes

Anzeigen 5 weitere Kommentare

Answer 3

407voto

Eric O Lebigot Punkte 85676

So viele Antworten, aber ich kann keine Lösung finden, die effizient das macht, was der Titel der Frage wörtlich verlangt (Aufteilen nach mehreren möglichen Trennzeichen—viele Antworten teilen stattdessen nach allem auf, was kein Wort ist, was anders ist). Hier also eine Antwort auf die Frage im Titel, die auf dem standardmäßigen und effizienten re Modul von Python basiert:

>>> import re  # Wird aufteilen nach: ,  - ! ? :
>>> filter(None, re.split(r"[, \-!?:]+", "Hey, you-what are you doing here!?"))
['Hey', 'you', 'what', 'are', 'you', 'doing', 'here']

wo:

das [...] passt zu einem der aufgelisteten Trennzeichen,
das \- im regulären Ausdruck ist hier, um die spezielle Interpretation von - als Zeichenbereichsindikator (wie in A-Z) zu verhindern,
das + überspringt ein oder mehrere Trennzeichen (es könnte dank des filter() weggelassen werden, aber das würde unnötigerweise leere Zeichenfolgen zwischen passenden Einzelzeichen-Trennzeichen erzeugen),
die Verwendung eines rohen Strings r"…" macht es explizit, dass \ im String so bleiben soll, wie es ist (und keinen speziellen Charakter einführt)—dies ist nützlich für Python 3.12+—, und
filter(None, …) entfernt die leeren Zeichenfolgen, die möglicherweise durch führende und abschließende Trennzeichen erzeugt werden (da leere Zeichenfolgen einen falschen booleschen Wert haben).

Diese re.split() teilt genau mit "mehreren Trennzeichen", wie in der Frage im Titel gefordert.

Diese Lösung ist außerdem immun gegen Probleme mit Nicht-ASCII-Zeichen in Wörtern, die in einigen anderen Lösungen gefunden wurden (siehe den ersten Kommentar zu ghostdog74's Antwort).

Das re Modul ist viel effizienter (in Geschwindigkeit und Kürze) als Schleifen und Tests in Python "von Hand" zu machen!

Beantwortet el 18 de Kann, 2014 von Eric O Lebigot (85676 Punkte )

3 Stimmen

"Ich kann keine Lösung finden, die effizient das tut, was der Titel der Frage buchstäblich verlangt" - die zweite Antwort tut das, vor 5 Jahren veröffentlicht: stackoverflow.com/a/1059601/2642204.

Kommentiert el 2 de Dezember, 2014 von BartoszKP

26 Stimmen

Diese Antwort teilt nicht an den Trennzeichen auf (aus einer Reihe von mehreren Trennzeichen): Sie teilt stattdessen an allem, was nicht alphanumerisch ist. Nichtsdestotrotz stimme ich zu, dass die Absicht des ursprünglichen Beitragenden wahrscheinlich ist, nur die Wörter zu behalten, anstatt einige Satzzeichen zu entfernen.

Kommentiert el 2 de Dezember, 2014 von Eric O Lebigot

0 Stimmen

EOL: Ich denke, diese Antwort spaltet sich auf einer Reihe von mehreren Trennzeichen. Wenn Sie Nicht-Alphanumerika zum String hinzufügen, die nicht spezifiziert sind, wie zum Beispiel Unterstrich, werden sie, wie erwartet, nicht getrennt.

Kommentiert el 7 de Dezember, 2014 von GravityWell

Anzeigen 12 weitere Kommentare

Answer 4

61voto

ghostdog74 Punkte 305138

Ein anderer Weg, ohne regex

import string
punc = string.punctuation
thestring = "Hey, you - what are you doing here!?"
s = list(thestring)
''.join([o for o in s if not o in punc]).split()

Beantwortet el 21 de Juli, 2009 von ghostdog74 (305138 Punkte )

8 Stimmen

Diese Lösung ist tatsächlich besser als die akzeptierte. Es funktioniert ohne ASCII-Zeichen, versuchen Sie "Hey, du - was machst du hier María!?". Die akzeptierte Lösung wird nicht mit dem vorherigen Beispiel funktionieren.

Kommentiert el 19 de Juni, 2012 von Christopher Ramírez

4 Stimmen

Ich denke, hier liegt ein kleines Problem vor ... Dein Code wird Zeichen anhängen, die durch Satzzeichen getrennt sind, und sie daher nicht aufteilen ... Wenn ich mich nicht irre, sollte deine letzte Zeile sein: ''.join([o if not o in string.punctuation else ' ' for o in s]).split()

Kommentiert el 22 de Marsch, 2013 von cedbeu

0 Stimmen

Die reguläre Ausdrucksbibliothek kann notfalls so angepasst werden, dass sie Unicode-Konventionen für Zeichen akzeptiert. Darüber hinaus hat dies dasselbe Problem, das die akzeptierte Lösung früher hatte: wie es jetzt ist, wird an Apostrophen getrennt. Sie möchten o for o in s if (o in not string.punctuation or o == "'"), aber dann wird es zu kompliziert für eine Einzeiler, wenn wir auch cedbeus Patch einbeziehen.

Kommentiert el 16 de April, 2013 von Daniel H

Anzeigen 2 weitere Kommentare

Answer 5

42voto

Dave Punkte 3050

Pro-Tipp: Verwenden Sie string.translate für die schnellsten Zeichenkettenoperationen, die Python zu bieten hat.

Ein paar Beweise...

Zuerst der langsame Weg (Entschuldigung pprzemek):

>>> import timeit
>>> S = 'Hey, du - was machst du hier!?'
>>> def my_split(s, seps):
...     res = [s]
...     for sep in seps:
...         s, res = res, []
...         for seq in s:
...             res += seq.split(sep)
...     return res
... 
>>> timeit.Timer('my_split(S, punctuation)', 'from __main__ import S,my_split; from string import punctuation').timeit()
54.65477919578552

Dann verwenden wir re.findall() (wie im vorgeschlagenen Antwort gegeben). VIEL schneller:

>>> timeit.Timer('findall(r"\w+", S)', 'from __main__ import S; from re import findall').timeit()
4.194725036621094

Zuletzt verwenden wir translate:

>>> from string import translate,maketrans,punctuation 
>>> T = maketrans(punctuation, ' '*len(punctuation))
>>> timeit.Timer('translate(S, T).split()', 'from __main__ import S,T,translate').timeit()
1.2835021018981934

Erklärung:

string.translate ist in C implementiert und anders als viele Zeichenkettenmanipulationsfunktionen in Python erzeugt string.translate keine neue Zeichenkette. Es ist also so schnell wie möglich für Zeichenaustausch.

Es ist jedoch etwas umständlich, da es eine Übersetzungstabelle benötigt, um diese Magie zu vollbringen. Sie können eine Übersetzungstabelle mit der Bequemlichkeitsfunktion maketrans() erstellen. Das Ziel hier ist es, alle unerwünschten Zeichen in Leerzeichen zu übersetzen. Ein-Eins-Ersatz. Auch hier wird keine neue Daten erzeugt. Also ist das schnell!

Dann verwenden wir das gute alte split(). split() wird standardmäßig auf alle Leerzeichenzeichen angewendet, die sie gruppiert für die Aufteilung zusammen. Das Ergebnis wird die Liste der Wörter sein, die Sie möchten. Und dieser Ansatz ist fast 4-mal schneller als re.findall()!

Beantwortet el 30 de August, 2012 von Dave (3050 Punkte )

5 Stimmen

Ich habe hier einen Test gemacht, und wenn Sie Unicode verwenden müssen, ist die Verwendung von patt = re.compile(ur'\w+', re.UNICODE); patt.findall(S) schneller als translate, weil Sie den String vor dem Anwenden der Transform-Funktion kodieren und jedes Element in der Liste nach dem Teilen dekodieren müssen, um zu Unicode zurückzukehren.

Kommentiert el 15 de Januar, 2013 von Rafael S. Calsaverini

0 Stimmen

Sie können die Translate-Implementierung in einer einzigen Zeile haben und sicherstellen, dass S nicht unter den Splittern ist mit: s.translate(''.join([(chr(i) if chr(i) not in seps else seps[0]) for i in range(256)])).split(seps[0])

Kommentiert el 2 de April, 2014 von hobs

0 Stimmen

Kein Problem. Du vergleichst Äpfel mit Birnen. ;) Meine Lösung in Python 3 funktioniert immer noch ;P und hat Unterstützung für Multi-Char-Trennzeichen. :) Versuche das auf einfache Weise, ohne einen neuen String zuzuweisen. :) Aber ja, meine Lösung ist auf das Analysieren von Befehlszeilenparametern beschränkt und nicht zum Beispiel auf ein Buch.

Kommentiert el 27 de Oktober, 2017 von pprzemek

Anzeigen 2 weitere Kommentare

Answer 6

30voto

pprzemek Punkte 2365

Ich stand vor einem ähnlichen Dilemma und wollte das 're'-Modul nicht verwenden.

def my_split(s, seps):
    res = [s]
    for sep in seps:
        s, res = res, []
        for seq in s:
            res += seq.split(sep)
    return res

print my_split('1111  2222 3333;4444,5555;6666', [' ', ';', ','])
['1111', '', '2222', '3333', '4444', '5555', '6666']

Beantwortet el 26 de Kann, 2010 von pprzemek (2365 Punkte )

1 Stimmen

Ich mag das. Nur eine Anmerkung, die Reihenfolge der Trennzeichen spielt eine Rolle. Entschuldigung, wenn das offensichtlich ist.

Kommentiert el 1 de Juli, 2011 von crizCraig

2 Stimmen

Warum nicht das re-Modul verwenden, das sowohl schneller als auch klarer ist (nicht dass reguläre Ausdrücke besonders klar sind, aber weil es kürzer und direkter ist)?

Kommentiert el 18 de November, 2014 von Eric O Lebigot

0 Stimmen

Es gibt viele Versionen von Python, nicht nur die auf python.org. Nicht alle von ihnen haben das re-Modul, besonders wenn Sie einbetten, schneiden Sie einfach alles ab, was Sie können.

Kommentiert el 12 de Februar, 2021 von pprzemek

Strings in Wörter mit mehreren Wortbegrenzern aufteilen

Antworten

Empfohlene Fragen

Top-Tags

CodeJaeger.com

Powered by:

Strings in Wörter mit mehreren Wortbegrenzern aufteilen

Antworten

Verwandte Fragen

Empfohlene Fragen

Top-Tags

CodeJaeger.com

Powered by: