Was ist der Unterschied zwischen Lemmatisierung und Stemming?

Question

Was ist der Unterschied zwischen Lemmatisierung und Stemming?

Gefragt el 24 de November, 2009: Wann wurde die Frage gestellt
131197 Ansichten: Anzahl der Besuche der Frage
5 Antworten: Anzahl der Fragenantworten
Gelöst: Aktueller Status der Frage

Wann verwende ich sie?

Auch ... ist die NLTK Lemmatisierung abhängig von Parts of Speech? Wäre es nicht genauer, wenn es so wäre?

Gefragt el 24 de November, 2009 von TIMEX

Answer 1

5 Antworten

Answer 2

16voto

ealdent Punkte 3527

Wie MYYN dargelegt hat, ist das Stemming der Prozess, bei dem Flexions- und manchmal auch Derivationsaffixe entfernt werden, um eine Grundform zu erhalten, mit der alle ursprünglichen Wörter wahrscheinlich verwandt sind. Bei der Lemmatisierung geht es darum, ein einziges Wort zu finden, mit dem man eine Reihe von flektierten Formen zusammenfassen kann. Dies ist schwieriger als die Stammbildung, weil dabei der Kontext (und damit die Bedeutung des Wortes) berücksichtigt werden muss, während bei der Stammbildung der Kontext ignoriert wird.

Wann Sie das eine oder das andere verwenden sollten, hängt davon ab, wie sehr Ihre Anwendung davon abhängt, dass Sie die Bedeutung eines Wortes im richtigen Kontext verstehen. Wenn Sie eine maschinelle Übersetzung durchführen, wollen Sie wahrscheinlich eine Lemmatisierung, um zu vermeiden, dass ein Wort falsch übersetzt wird. Wenn Sie eine Informationsabfrage über eine Milliarde Dokumente durchführen und 99 % Ihrer Abfragen zwischen 1 und 3 Wörtern liegen, können Sie sich mit Stemming zufrieden geben.

Was NLTK betrifft, so verwendet der WordNetLemmatizer die Wortart, obwohl Sie sie angeben müssen (sonst werden standardmäßig Substantive verwendet). Wenn man "dove" und "v" angibt, erhält man "dive", während "dove" und "n" "dove" ergibt.

Beantwortet el 24 de November, 2009 von ealdent (3527 Punkte )

Answer 3

15voto

majom Punkte 7533

Eine beispielhafte Erklärung des Unterschieds zwischen Lemmatisierung und Stemming:

Lemmatisierung Griffe Abgleich von "Auto" mit "Autos" entlang mit der Übereinstimmung von "Auto" mit "Automobil".

Stemming Griffe Abgleich von "Auto" mit "Autos" .

Die Lemmatisierung impliziert einen breiteren Bereich der unscharfen Wortübereinstimmung, der immer noch von denselben Teilsystemen bearbeitet wird. Sie impliziert bestimmte Techniken für die Verarbeitung auf niedriger Ebene innerhalb der Maschine und kann auch eine technische Vorliebe für die Terminologie widerspiegeln.

[...] Nehmen wir das Beispiel FAST, Ihre Lemmatisierungsmaschine verarbeitet nicht nur einfache Wortvariationen wie Singular vs. Plural, sondern auch Thesaurus-Operatoren wie "heiß" mit mit "warm" übereinstimmt.

Das soll natürlich nicht heißen, dass andere Suchmaschinen nicht auch mit Synonymen umgehen können Natürlich tun sie das, aber die Implementierung auf niedriger Ebene kann in einer anderen Subsystem als diejenigen, die das Base Stemming behandeln.

http://www.ideaeng.com/stemming-lemmatization-0601

Beantwortet el 23 de Oktober, 2015 von majom (7533 Punkte )

Answer 4

9voto

siva pokala Punkte 81

Beim Stemming werden die letzten Buchstaben eines Wortes entfernt, um eine kürzere Form zu erhalten, auch wenn diese Form keine Bedeutung hat.

Beispiele,

"beautiful" -> "beauti"
"corpora" -> "corpora"

Die Entstammung kann sehr schnell durchgeführt werden.

Bei der Lemmatisierung hingegen wird das gegebene Wort in seine Grundform umgewandelt, die der Bedeutung des Wortes im Wörterbuch entspricht.

Beispiele,

"beautiful" -> "beauty"
"corpora" -> "corpus"

Die Lemmatisierung nimmt mehr Zeit in Anspruch als das Stemming.

Beantwortet el 18 de Kann, 2020 von siva pokala (81 Punkte )

Answer 5

4voto

Aditya Mukherji Punkte 8875

Ich denke, Stemming ist ein grober Hack, den die Leute benutzen, um alle verschiedenen Formen desselben Wortes auf eine Grundform zu reduzieren, die kein eigenständiges Wort sein muss.
So etwas wie der Porter Stemmer kann einfache Regexe verwenden, um häufige Wortsuffixe zu entfernen

Durch die Lemmatisierung wird ein Wort auf seine tatsächliche Grundform reduziert, die im Falle unregelmäßiger Verben nicht unbedingt wie das Eingabewort aussieht
Etwas wie Morpha, das FSTs verwendet, um Substantive und Verben in ihre Grundform zu bringen

Beantwortet el 24 de November, 2009 von Aditya Mukherji (8875 Punkte )

Answer 6

2voto

Nilani Algiriyage Punkte 27476

Huang et al. beschreiben das Stemming und die Lemmatisierung wie folgt. Die Auswahl hängt von der Problemstellung und der Verfügbarkeit von Rechenressourcen ab.

Stemming identifiziert die gemeinsame Stammform eines Wortes durch Entfernen oder Ersetzen von Wortsuffixen (z.B. "flooding" wird als "flood" stemmed), während Lemmatisierung die flektierten Formen eines Wortes identifiziert und seine Grundform zurückgibt (z.B. "better" wird als "good" lemmatisiert).

Huang, X., Li, Z., Wang, C., & Ning, H. (2020). Identifizierung von katastrophenbezogenen sozialen Medien für eine schnelle Reaktion: eine visuell-textuelle fusionierte CNN-Architektur. International Journal of Digital Earth, 13(9), 1017-1039. https://doi.org/10.1080/17538947.2019.1633425

Beantwortet el 2 de Kann, 2021 von Nilani Algiriyage (27476 Punkte )

Was ist der Unterschied zwischen Lemmatisierung und Stemming?

Antworten

Empfohlene Fragen

Top-Tags

CodeJaeger.com

Powered by:

Was ist der Unterschied zwischen Lemmatisierung und Stemming?

Antworten

Verwandte Fragen

Empfohlene Fragen

Top-Tags

CodeJaeger.com

Powered by: