5 Stimmen

Extrahieren semantische/stilistische Merkmale aus Text

Ich möchte gerne wissen, welche Open-Source-Tools (für Java/Python) mir helfen könnten, semantische und stilistische Merkmale aus Texten zu extrahieren. Beispiele für semantische Merkmale wären das Adjektiv-Substantiv-Verhältnis, eine bestimmte Folge von Teilen der Sprache (Adjektiv gefolgt von einem Substantiv: adj|nn) usw. Beispiele für stilistische Merkmale wären die Anzahl der einzigartigen Wörter, die Anzahl der Pronomen usw. Aktuell kenne ich nur Word to Web Tools , das einen Textblock in das rudimentäre Vektorraummodell umwandelt.

Ich kenne einige Text-Mining-Pakete wie GATE, NLTK, Rapid Miner, Mallet und MinorThird . Allerdings konnte ich keine Mechanismen finden, die meiner Aufgabe entsprechen.

Mit freundlichen Grüßen,
--Denzil

0voto

Dexter Punkte 10479

Eine der brillanten Bibliotheken, die ich in die Hände bekommen habe: http://code.google.com/p/textmatrix/

CodeJaeger.com

CodeJaeger ist eine Gemeinschaft für Programmierer, die täglich Hilfe erhalten..
Wir haben viele Inhalte, und Sie können auch Ihre eigenen Fragen stellen oder die Fragen anderer Leute lösen.

Powered by:

X