Wann verwende ich sie?
Auch ... ist die NLTK Lemmatisierung abhängig von Parts of Speech? Wäre es nicht genauer, wenn es so wäre?
Wann verwende ich sie?
Auch ... ist die NLTK Lemmatisierung abhängig von Parts of Speech? Wäre es nicht genauer, wenn es so wäre?
Wie MYYN dargelegt hat, ist das Stemming der Prozess, bei dem Flexions- und manchmal auch Derivationsaffixe entfernt werden, um eine Grundform zu erhalten, mit der alle ursprünglichen Wörter wahrscheinlich verwandt sind. Bei der Lemmatisierung geht es darum, ein einziges Wort zu finden, mit dem man eine Reihe von flektierten Formen zusammenfassen kann. Dies ist schwieriger als die Stammbildung, weil dabei der Kontext (und damit die Bedeutung des Wortes) berücksichtigt werden muss, während bei der Stammbildung der Kontext ignoriert wird.
Wann Sie das eine oder das andere verwenden sollten, hängt davon ab, wie sehr Ihre Anwendung davon abhängt, dass Sie die Bedeutung eines Wortes im richtigen Kontext verstehen. Wenn Sie eine maschinelle Übersetzung durchführen, wollen Sie wahrscheinlich eine Lemmatisierung, um zu vermeiden, dass ein Wort falsch übersetzt wird. Wenn Sie eine Informationsabfrage über eine Milliarde Dokumente durchführen und 99 % Ihrer Abfragen zwischen 1 und 3 Wörtern liegen, können Sie sich mit Stemming zufrieden geben.
Was NLTK betrifft, so verwendet der WordNetLemmatizer die Wortart, obwohl Sie sie angeben müssen (sonst werden standardmäßig Substantive verwendet). Wenn man "dove" und "v" angibt, erhält man "dive", während "dove" und "n" "dove" ergibt.
Eine beispielhafte Erklärung des Unterschieds zwischen Lemmatisierung und Stemming:
Lemmatisierung Griffe Abgleich von "Auto" mit "Autos" entlang mit der Übereinstimmung von "Auto" mit "Automobil".
Stemming Griffe Abgleich von "Auto" mit "Autos" .
Die Lemmatisierung impliziert einen breiteren Bereich der unscharfen Wortübereinstimmung, der immer noch von denselben Teilsystemen bearbeitet wird. Sie impliziert bestimmte Techniken für die Verarbeitung auf niedriger Ebene innerhalb der Maschine und kann auch eine technische Vorliebe für die Terminologie widerspiegeln.
[...] Nehmen wir das Beispiel FAST, Ihre Lemmatisierungsmaschine verarbeitet nicht nur einfache Wortvariationen wie Singular vs. Plural, sondern auch Thesaurus-Operatoren wie "heiß" mit mit "warm" übereinstimmt.
Das soll natürlich nicht heißen, dass andere Suchmaschinen nicht auch mit Synonymen umgehen können Natürlich tun sie das, aber die Implementierung auf niedriger Ebene kann in einer anderen Subsystem als diejenigen, die das Base Stemming behandeln.
Beim Stemming werden die letzten Buchstaben eines Wortes entfernt, um eine kürzere Form zu erhalten, auch wenn diese Form keine Bedeutung hat.
Beispiele,
"beautiful" -> "beauti"
"corpora" -> "corpora"
Die Entstammung kann sehr schnell durchgeführt werden.
Bei der Lemmatisierung hingegen wird das gegebene Wort in seine Grundform umgewandelt, die der Bedeutung des Wortes im Wörterbuch entspricht.
Beispiele,
"beautiful" -> "beauty"
"corpora" -> "corpus"
Die Lemmatisierung nimmt mehr Zeit in Anspruch als das Stemming.
Ich denke, Stemming ist ein grober Hack, den die Leute benutzen, um alle verschiedenen Formen desselben Wortes auf eine Grundform zu reduzieren, die kein eigenständiges Wort sein muss.
So etwas wie der Porter Stemmer kann einfache Regexe verwenden, um häufige Wortsuffixe zu entfernen
Durch die Lemmatisierung wird ein Wort auf seine tatsächliche Grundform reduziert, die im Falle unregelmäßiger Verben nicht unbedingt wie das Eingabewort aussieht
Etwas wie Morpha, das FSTs verwendet, um Substantive und Verben in ihre Grundform zu bringen
Huang et al. beschreiben das Stemming und die Lemmatisierung wie folgt. Die Auswahl hängt von der Problemstellung und der Verfügbarkeit von Rechenressourcen ab.
Stemming identifiziert die gemeinsame Stammform eines Wortes durch Entfernen oder Ersetzen von Wortsuffixen (z.B. "flooding" wird als "flood" stemmed), während Lemmatisierung die flektierten Formen eines Wortes identifiziert und seine Grundform zurückgibt (z.B. "better" wird als "good" lemmatisiert).
Huang, X., Li, Z., Wang, C., & Ning, H. (2020). Identifizierung von katastrophenbezogenen sozialen Medien für eine schnelle Reaktion: eine visuell-textuelle fusionierte CNN-Architektur. International Journal of Digital Earth, 13(9), 1017-1039. https://doi.org/10.1080/17538947.2019.1633425
CodeJaeger ist eine Gemeinschaft für Programmierer, die täglich Hilfe erhalten..
Wir haben viele Inhalte, und Sie können auch Ihre eigenen Fragen stellen oder die Fragen anderer Leute lösen.