Ich denke an ein Stop-Wörter in meinem Ähnlichkeitsprogramm und dann ein Stemmer (gehen für Porter 1 oder 2 hängt davon ab, was am einfachsten zu implementieren)
Ich habe mich gefragt, dass, da ich meinen Text aus Dateien als ganze Zeilen lesen und speichern Sie sie als eine lange Zeichenfolge, so dass, wenn ich zwei Zeichenfolgen ex bekam.
String one = "I decided buy something from the shop.";
String two = "Nevertheless I decidedly bought something from a shop.";
Jetzt, wo ich diese Saiten habe
Stemming: Kann ich einfach den Stemmer-Algorithmus direkt darauf anwenden, ihn als String speichern und dann die Arbeit an der Ähnlichkeit fortsetzen, wie ich es vor der Implementierung des Stemmer-Algorithmus in das Programm getan habe, z. B. durch Ausführen von one.stem(); usw.?
Stoppwort: Wie wird das funktionieren? O.o Verwende ich einfach; one.replaceall("I", ""); oder gibt es eine spezielle Methode für diesen Vorgang? Ich möchte mit der Zeichenkette weiterarbeiten und eine Zeichenkette erhalten, bevor ich die Ähnlichkeitsalgorithmen auf sie anwende, um die Ähnlichkeit zu erhalten. Wiki sagt nicht viel aus.
Ich hoffe, Sie können mir weiterhelfen! Danke!
Bearbeiten: Es ist für ein schulisches Projekt, wo ich ein Papier über die Ähnlichkeit zwischen verschiedenen Algorithmen schreibe, also glaube ich nicht, dass ich Lucene oder andere Bibliotheken verwenden darf, die die Arbeit für mich erledigen. Außerdem möchte ich versuchen zu verstehen, wie es funktioniert, bevor ich anfange, Bibliotheken wie Lucene und Co. zu benutzen. Ich hoffe, das ist nicht zu viel Aufwand ^^