354 Stimmen

Was bedeutet "Entropie und Informationsgewinn"?

Ich lese gerade dieses Buch ( NLTK ) und es ist verwirrend. Entropie es definiert als :

Die Entropie ist die Summe der Wahrscheinlichkeiten für jedes Etikett mal der logarithmischen Wahrscheinlichkeit desselben Labels

Wie kann ich mich bewerben? Entropie y maximale Entropie in Bezug auf das Textmining? Kann mir jemand ein leichtes, einfaches Beispiel (visuell) geben?

0voto

Paulo Punkte 71

Da Sie gerade ein Buch über NLTK lesen, wäre es interessant, etwas über das MaxEnt Classifier Modul zu erfahren http://www.nltk.org/api/nltk.classify.html#module-nltk.classify.maxent

Für die Klassifizierung von Text Mining könnten die Schritte sein: Vorverarbeitung (Tokenisierung, Dämpfung, Merkmalsauswahl mit Informationsgewinn ...), Umwandlung in numerische Werte (Häufigkeit oder TF-IDF) (ich denke, dass dies der wichtigste Schritt ist, um zu verstehen, wenn Text als Eingabe für einen Algorithmus verwendet wird, der nur numerische Werte akzeptiert) und dann Klassifizierung mit MaxEnt, natürlich ist dies nur ein Beispiel.

CodeJaeger.com

CodeJaeger ist eine Gemeinschaft für Programmierer, die täglich Hilfe erhalten..
Wir haben viele Inhalte, und Sie können auch Ihre eigenen Fragen stellen oder die Fragen anderer Leute lösen.

Powered by:

X