207 Stimmen

Was ist der Unterschied zwischen Lemmatisierung und Stemming?

Wann verwende ich sie?

Auch ... ist die NLTK Lemmatisierung abhängig von Parts of Speech? Wäre es nicht genauer, wenn es so wäre?

1voto

Khyber Zaland Punkte 11

Der einzige Unterschied besteht darin, dass der Stamm nicht unbedingt ein tatsächliches Wort ist, während das Lemma ein tatsächliches Wort der Sprache ist.

Das Stemming folgt einem Algorithmus mit Schritten, die an den Wörtern durchgeführt werden, was es schneller macht. Bei der Lemmatisierung hingegen wird ein Korpus verwendet, um die Lemmata zu liefern, was sie langsamer macht als das Stemming. Außerdem müssen Sie möglicherweise ein Wortteil definieren, um das richtige Lemma zu finden.

Die obigen Punkte zeigen, dass, wenn die Geschwindigkeit im Vordergrund steht, Stemming verwendet werden sollte, da Lemmatizer einen Korpus scannen, was Zeit und Verarbeitung kostet. Es hängt von dem Problem ab, an dem Sie arbeiten, ob Stemming oder Lemmatizer verwendet werden sollten. Für weitere Informationen besuchen Sie den Link: https://towardsdatascience.com/stemming-vs-lemmatization-2daddabcb221

0voto

sanjay lalwani Punkte 35

Stemming ist der Prozess der Erzeugung von morphologischen Varianten einer Wortwurzel/eines Grundworts. Stemming-Programme werden im Allgemeinen als Stemming-Algorithmen oder Stemmers bezeichnet. Wenn man einen Text nach einem bestimmten Schlüsselwort durchsucht, ist es oft hilfreich, wenn die Suche Varianten des Wortes liefert. Zum Beispiel könnte die Suche nach "Boot" auch "Boote" und "Bootfahren" ergeben. In diesem Fall wäre "boat" der Stamm für [boat, boater, boating, boats].

Lemmatisierung geht über die Wortreduktion hinaus und berücksichtigt den gesamten Wortschatz einer Sprache, um eine morphologische Analyse auf Wörter anzuwenden. Das Lemma von "war" ist "sein" und das Lemma von "Mäuse" ist "Maus".

Ich habe auf diesen Link verwiesen, https://towardsdatascience.com/stemming-vs-lemmatization-2daddabcb221

CodeJaeger.com

CodeJaeger ist eine Gemeinschaft für Programmierer, die täglich Hilfe erhalten..
Wir haben viele Inhalte, und Sie können auch Ihre eigenen Fragen stellen oder die Fragen anderer Leute lösen.

Powered by:

X