2 Stimmen

Die Rolle von Klassenprioritäten in der Weka-Klassifikation

Ich habe einen Trainingsdatensatz, der aus etwa 1568 Zeilen besteht, von denen jede einen von sieben Werten des Attributs "Klasse" hat. Ich möchte diese Daten mit einem zweiten Datensatz von 168 Zeilen testen.

Aber ich habe eine Frage. Weka berichtet, dass "Klassenprioritäten" sind:

141.0
169.0
225.0
197.0
421.0
281.0
141.0

Mein Trainingssatz hat die folgende Anzahl von Instanzen pro Klassenattributwert:

140
168
224
196
420
280
140

Abgesehen davon, dass die Klassenprioritäten sehr eng mit den Zeilenzahlen des Trainingssatzes pro Wert des Klassenattributs verbunden sind, kann mir jemand sagen, was sie sind und was sie tatsächlich darstellen?

Die Testmenge hat die folgende Anzahl von Instanzen pro Klassenattributwert:

15
18
24
21
45
30
15

2voto

bogatron Punkte 18119

Der Klassenprior ist eine Schätzung der Wahrscheinlichkeit, dass eine Zufallsstichprobe einer Instanz aus einer Grundgesamtheit die gegebene Klasse ergibt (unabhängig von allen Attributen der Instanz). Weka geht davon aus, dass Ihre Trainingsdaten zufällig aus einer Population gezogen werden, so dass die Proportionen der Klassen in Ihrem Trainingsset auf ihre relative Häufigkeit in der Stichprobenpopulation hinweisen. Beachten Sie, dass Weka nicht die Priore, sondern die zur Berechnung der Priore verwendeten Zählungen angibt. Der Grund für die Hinzufügung von 1 zu jeder Zählung besteht darin, eine Nullzählung in einer Situation zu verhindern, in der eine bestimmte Klasse in Ihren Trainingsdaten nicht vertreten ist. Weka sollte also die tatsächlichen Prioritäten für jede Klasse wie folgt berechnen

P(c_i) = n_i / (N + C)

wobei n_i ist die Anzahl der Proben für die Klasse i , N ist die Gesamtzahl der Proben und C ist die Anzahl der Klassen.

Ein sehr einfaches Beispiel dafür, wofür die vorherige Wahrscheinlichkeit verwendet wird, ist die Klassifizierung einer Krankheit, wenn man nur weiß, dass eine Person Fieber und Kopfschmerzen hat. Diese Symptome sind Anzeichen sowohl für eine Grippe als auch für das Ebola-Virus. Da aber viel mehr Menschen an Grippe als an Ebola erkrankt sind (die vorherige Wahrscheinlichkeit von Grippe ist viel höher als die von Ebola), würden Sie die Krankheit aufgrund dieser Symptome als Grippe einstufen.

Weka bietet Methoden, um die Standard-Priorwahrscheinlichkeiten zu aktualisieren oder außer Kraft zu setzen. Um die mathematischen Details der Verwendung von Prioritätswahrscheinlichkeiten bei der Klassifizierung zu sehen, sehen Sie sich Bayes' Theorem .

CodeJaeger.com

CodeJaeger ist eine Gemeinschaft für Programmierer, die täglich Hilfe erhalten..
Wir haben viele Inhalte, und Sie können auch Ihre eigenen Fragen stellen oder die Fragen anderer Leute lösen.

Powered by:

X