Der Klassenprior ist eine Schätzung der Wahrscheinlichkeit, dass eine Zufallsstichprobe einer Instanz aus einer Grundgesamtheit die gegebene Klasse ergibt (unabhängig von allen Attributen der Instanz). Weka geht davon aus, dass Ihre Trainingsdaten zufällig aus einer Population gezogen werden, so dass die Proportionen der Klassen in Ihrem Trainingsset auf ihre relative Häufigkeit in der Stichprobenpopulation hinweisen. Beachten Sie, dass Weka nicht die Priore, sondern die zur Berechnung der Priore verwendeten Zählungen angibt. Der Grund für die Hinzufügung von 1 zu jeder Zählung besteht darin, eine Nullzählung in einer Situation zu verhindern, in der eine bestimmte Klasse in Ihren Trainingsdaten nicht vertreten ist. Weka sollte also die tatsächlichen Prioritäten für jede Klasse wie folgt berechnen
P(c_i) = n_i / (N + C)
wobei n_i
ist die Anzahl der Proben für die Klasse i
, N
ist die Gesamtzahl der Proben und C
ist die Anzahl der Klassen.
Ein sehr einfaches Beispiel dafür, wofür die vorherige Wahrscheinlichkeit verwendet wird, ist die Klassifizierung einer Krankheit, wenn man nur weiß, dass eine Person Fieber und Kopfschmerzen hat. Diese Symptome sind Anzeichen sowohl für eine Grippe als auch für das Ebola-Virus. Da aber viel mehr Menschen an Grippe als an Ebola erkrankt sind (die vorherige Wahrscheinlichkeit von Grippe ist viel höher als die von Ebola), würden Sie die Krankheit aufgrund dieser Symptome als Grippe einstufen.
Weka bietet Methoden, um die Standard-Priorwahrscheinlichkeiten zu aktualisieren oder außer Kraft zu setzen. Um die mathematischen Details der Verwendung von Prioritätswahrscheinlichkeiten bei der Klassifizierung zu sehen, sehen Sie sich Bayes' Theorem .