Clusteranalyse in R: Bestimmen der optimalen Anzahl von Clustern

Question

Clusteranalyse in R: Bestimmen der optimalen Anzahl von Clustern

Gefragt el 13 de Marsch, 2013: Wann wurde die Frage gestellt
280301 Ansichten: Anzahl der Besuche der Frage
2 Antworten: Anzahl der Fragenantworten
Gelöst: Aktueller Status der Frage

Wie kann ich die beste Anzahl von Clustern für eine k-Means-Analyse wählen? Nachdem ich eine Teilmenge der unten stehenden Daten geplottet habe, wie viele Cluster wären angemessen? Wie kann ich eine Cluster-Dendro-Analyse durchführen?

n = 1000
kk = 10    
x1 = runif(kk)
y1 = runif(kk)
z1 = runif(kk)    
x4 = sample(x1,length(x1))
y4 = sample(y1,length(y1)) 
randObs <- function()
{
  ix = sample( 1:length(x4), 1 )
  iy = sample( 1:length(y4), 1 )
  rx = rnorm( 1, x4[ix], runif(1)/8 )
  ry = rnorm( 1, y4[ix], runif(1)/8 )
  return( c(rx,ry) )
}  
x = c()
y = c()
for ( k in 1:n )
{
  rPair  =  randObs()
  x  =  c( x, rPair[1] )
  y  =  c( y, rPair[2] )
}
z <- rnorm(n)
d <- data.frame( x, y, z )

Gefragt el 13 de Marsch, 2013 von user2153893

Answer 1

2 Antworten

Answer 2

4voto

boyaronur Punkte 491

Die Antworten sind großartig. Wenn Sie einer anderen Clustering-Methode eine Chance geben wollen, können Sie hierarchisches Clustering verwenden und sehen, wie die Daten aufgeteilt werden.

> set.seed(2)
> x=matrix(rnorm(50*2), ncol=2)
> hc.complete = hclust(dist(x), method="complete")
> plot(hc.complete)

Je nachdem, wie viele Klassen Sie benötigen, können Sie Ihr Dendrogramm wie folgt schneiden:

> cutree(hc.complete,k = 2)
 [1] 1 1 1 2 1 1 1 1 1 1 1 1 1 2 1 2 1 1 1 1 1 2 1 1 1
[26] 2 1 1 1 1 1 1 1 1 1 1 2 2 1 1 1 2 1 1 1 1 1 1 1 2

Wenn Sie ?cutree eingeben, sehen Sie die Definitionen. Wenn Ihr Datensatz drei Klassen hat, wird es einfach cutree(hc.complete, k = 3) sein. Das Äquivalent für cutree(hc.complete, k = 2) ist cutree(hc.complete, h = 4.9).

Beantwortet el 23 de August, 2017 von boyaronur (491 Punkte )

Answer 3

0voto

Saurabh Punkte 1390

Es ist sehr verwirrend, durch so viele Funktionen zu navigieren, ohne den Leistungsfaktor zu berücksichtigen. Ich verstehe, dass einige Funktionen in den verfügbaren Paketen viel mehr tun als nur die optimale Anzahl von Clustern zu finden. Hier sind die Benchmark-Ergebnisse dieser Funktionen für alle, die diese Funktionen für ihr Projekt in Betracht ziehen -

n = 100
g = 6 
set.seed(g)
d <- data.frame(x = unlist(lapply(1:g, function(i) rnorm(n/g, runif(1)*i^2))), 
                y = unlist(lapply(1:g, function(i) rnorm(n/g, runif(1)*i^2))))

mydata <- d
require(cluster)
require(vegan)
require(mclust)
require(apcluster)
require(NbClust)
require(fpc)

microbenchmark::microbenchmark(
  wss = {
    wss <- (nrow(mydata)-1)*sum(apply(mydata,2,var))
    for (i in 2:15) wss[i] <- sum(kmeans(mydata, centers=i)$withinss)
  },

  fpc = {
    asw <- numeric(20)
    for (k in 2:20)
      asw[[k]] <- pam(d, k) $ silinfo $ avg.width
    k.best <- which.max(asw)
  },
  fpc_1 = fpc::pamk(d),

  vegan = {
    fit <- cascadeKM(scale(d, center = TRUE,  scale = TRUE), 1, 10, iter = 1000)
    plot(fit, sortg = TRUE, grpmts.plot = TRUE)
    calinski.best <- as.numeric(which.max(fit$results[2,]))
  },

  mclust = {
    d_clust <- Mclust(as.matrix(d), G=1:20)
    m.best <- dim(d_clust$z)[2]
  },
  d.apclus = apcluster(negDistMat(r=2), d),
  clusGap = clusGap(d, kmeans, 10, B = 100, verbose = interactive()),
  NbClust = NbClust(d, diss=NULL, distance = "euclidean",
                method = "kmeans", min.nc=2, max.nc=15, 
                index = "alllong", alphaBeale = 0.1),

  times = 1)

Einheit: Millisekunden
     expr         min          lq        mean      median          uq         max neval
      wss    16.83938    16.83938    16.83938    16.83938    16.83938    16.83938     1
      fpc   221.99490   221.99490   221.99490   221.99490   221.99490   221.99490     1
    fpc_1    43.10493    43.10493    43.10493    43.10493    43.10493    43.10493     1
    vegan  1096.08568  1096.08568  1096.08568  1096.08568  1096.08568  1096.08568     1
   mclust  1531.69475  1531.69475  1531.69475  1531.69475  1531.69475  1531.69475     1
 d.apclus    28.56100    28.56100    28.56100    28.56100    28.56100    28.56100     1
  clusGap  1096.50680  1096.50680  1096.50680  1096.50680  1096.50680  1096.50680     1
  NbClust 10940.98807 10940.98807 10940.98807 10940.98807 10940.98807 10940.98807     1

Ich fand die Funktion pamk im Paket fpc für meine Anforderungen am nützlichsten.

Beantwortet el 22 de April, 2022 von Saurabh (1390 Punkte )

Clusteranalyse in R: Bestimmen der optimalen Anzahl von Clustern

Antworten

Empfohlene Fragen

Top-Tags

CodeJaeger.com

Powered by:

Clusteranalyse in R: Bestimmen der optimalen Anzahl von Clustern

Antworten

Verwandte Fragen

Empfohlene Fragen

Top-Tags

CodeJaeger.com

Powered by: