1) Können wir Ausreißer mit k-means finden, ist das ein guter Ansatz?
Clusterbasierte Ansätze sind optimal, um Cluster zu finden, und können verwendet werden, um Ausreißer zu erkennen, wie Nebenprodukte. Bei der Clusterbildung können sich Ausreißer auf die Lage der Clusterzentren auswirken und sogar zu einem Mikrocluster aggregieren. Diese Eigenschaften machen die clusterbasierten Ansätze für komplizierte Datenbanken unbrauchbar.
2) Gibt es einen Clustering-Algorithmus, der keine Eingaben des Benutzers akzeptiert?
Vielleicht können Sie einige wertvolle Erkenntnisse zu diesem Thema gewinnen: Dirichlet-Prozess-Clustering
Der Dirichlet-basierte Clustering-Algorithmus kann die Anzahl der Cluster entsprechend der Verteilung der Beobachtungsdaten adaptiv bestimmen.
3) Können wir eine Support-Vektor-Maschine oder einen anderen überwachten Lernalgorithmus für die Ausreißererkennung verwenden?
Jeder überwachte Lernalgorithmus benötigt eine ausreichende Anzahl von beschrifteten Trainingsdaten, um Klassifikatoren zu erstellen. Ein ausgewogener Trainingsdatensatz ist jedoch für reale Probleme wie die Erkennung von Eindringlingen oder die medizinische Diagnostik nicht immer verfügbar. Nach der Definition von Hawkins Ausreißer ("Identification of Outliers". Chapman and Hall, London, 1980) ist die Zahl der normalen Daten viel größer als die der Ausreißer. Die meisten Algorithmen des überwachten Lernens sind nicht in der Lage, einen effizienten Klassifikator für den oben genannten unausgewogenen Datensatz zu erstellen.
4) Was sind die Vor- und Nachteile der einzelnen Ansätze?
In den letzten Jahrzehnten reichen die Forschungsarbeiten zur Ausreißererkennung von der globalen Berechnung bis zur lokalen Analyse, und die Beschreibungen von Ausreißern variieren von binären Interpretationen bis zu probabilistischen Darstellungen. Je nach den Hypothesen der Ausreißererkennungsmodelle können die Algorithmen zur Ausreißererkennung in vier Arten unterteilt werden: Statistische Algorithmen, Cluster-basierte Algorithmen, Nearest Neighborhood-basierte Algorithmen und Klassifikator-basierte Algorithmen. Es gibt mehrere wertvolle Untersuchungen zur Ausreißererkennung:
-
Hodge, V. und Austin, J. "A survey of outlier detection methodologies", Journal of Artificial Intelligence Review, 2004.
-
Chandola, V. und Banerjee, A. und Kumar, V. "Outlier detection: A survey", ACM Computing Surveys, 2007.