Ich möchte gerne wissen, welche Open-Source-Tools (für Java/Python) mir helfen könnten, semantische und stilistische Merkmale aus Texten zu extrahieren. Beispiele für semantische Merkmale wären das Adjektiv-Substantiv-Verhältnis, eine bestimmte Folge von Teilen der Sprache (Adjektiv gefolgt von einem Substantiv: adj|nn) usw. Beispiele für stilistische Merkmale wären die Anzahl der einzigartigen Wörter, die Anzahl der Pronomen usw. Aktuell kenne ich nur Word to Web Tools , das einen Textblock in das rudimentäre Vektorraummodell umwandelt.
Ich kenne einige Text-Mining-Pakete wie GATE, NLTK, Rapid Miner, Mallet und MinorThird . Allerdings konnte ich keine Mechanismen finden, die meiner Aufgabe entsprechen.
Mit freundlichen Grüßen,
--Denzil