Ich versuche, eine Methode zu entwickeln, mit der eine bestimmte Anzahl englischer Wörter in zwei Gruppen eingeteilt werden kann - "selten" und "häufig" - je nachdem, wie häufig sie in der Sprache verwendet werden.
Die Zahl der Wörter, die ich klassifizieren möchte, ist begrenzt - sie liegt derzeit bei etwa 10.000 und umfasst alles von Artikeln bis hin zu Eigennamen, die aus anderen Sprachen entlehnt sein könnten (und daher als "selten" eingestuft würden). Ich habe eine Häufigkeitsanalyse innerhalb des Korpus durchgeführt und habe eine Verteilung dieser Wörter (von 1 Verwendung bis zu maximal etwa 100).
Meine Intuition für ein solches System war die Verwendung von Wortlisten (z. B. BNC-Wortfrequenzkorpus, wordnet, interne Korpushäufigkeit) und die Zuweisung von Gewichten für das Vorkommen eines Wortes in einer dieser Listen.
So kann beispielsweise ein Wort, das im Korpus eine mittlere Häufigkeit aufweist (z. B. 50), aber in einer Wortliste W vorkommt, als häufig angesehen werden, da es zu den häufigsten in der gesamten Sprache gehört. Meine Frage war - wie kann ich am besten eine gewichtete Bewertung für so etwas erstellen? Sollte ich diskret oder kontinuierlich vorgehen? Welches Klassifizierungssystem würde sich in jedem Fall am besten eignen?
Oder empfehlen Sie eine andere Methode?
Danke!
EDIT:
Um die Frage von Vinko nach dem Verwendungszweck der Klassifizierung zu beantworten -
Diese Wörter werden aus einer Phrase (z.B. Buchtitel) tokenisiert - und das Ziel ist es, eine Strategie zu finden, um eine Suchanfrage für die Phrase zu generieren und einen Textkorpus zu durchsuchen. Der Abfrage-String kann mehrere Parameter unterstützen, wie z. B. Nähe usw. - wenn also ein Wort häufig vorkommt, können diese Parameter angepasst werden.
Um die Frage von Igor zu beantworten -
(1) Wie groß ist Ihr Korpus? Derzeit ist die Liste auf 10k Token begrenzt, aber das ist nur ein Trainingssatz. Es könnte bis zu ein paar 100k gehen, sobald ich anfange, es auf dem Testset zu testen.
2) Haben Sie eine Art erwarteten Anteil an häufigen/seltenen Wörtern im Korpus? Hmm, das habe ich nicht.