![]() |
Clusteranalyse | |||||||||||
Über die Clusteranalyse werden Gruppen innerhalb Beobachtungen identifiziert. Die Clusteranalyse steht damit methodisch vor der Varianz- und der Diskriminanzanalyse, da bei diesen Verfahren eine Gruppeneinteilung vorausgesetzt wird. Der Begriff Clusteranalyse steht für unterschiedliche Verfahren zur Gruppenidentifizierung anhand der Eigenschaften der beobachteten Objekte. Über diese Eigenschaften werden Verwandtschaften über Distanz- oder Ähnlichkeitsmaße mit den Verfahren der Clusteranalyse ermittelt. Die dann ermittelten Gruppen sollen praktisch keine Ähnlichkeit besitzen. Die Clusteranalyse beurteilt zur Gruppenbildung (Clusterbildung) alle Eigenschaften der beobachteten Objekte (polythetisches Verfahren) und ist ein strukturentdeckendes Verfahren. Der Ablauf einer Clusteranalyse findet prinzipiell über 2 Schritte statt (Abb. 1): | |||||||||||
![]() | |||||||||||
Abbildung 1 | |||||||||||
Die Bestimmung der Ähnlichkeit, des Proximitätsmaßes, erfolgt ebenso wie die Bestimmung der Clusteranzahl über
verschiedene Verfahren und wird auf der Seite der Distanzbestimmung ausführlich dargelegt. |
![]() | ||
Abb. 2 | ||
Die euklidische Distanzmatrix der Abbildung 2 zeigt Abbildung 3 und sie ist die Ausgangsbasis zur Clusteranalyse: |
|
| ||||||||||||||||||||
![]() | ||
Abbildung 4 | ||
|
| ||||||||||||||||||||||||||||||||||||||||
Die Distanzbildung zwischen dem neuen Cluster (X+Y) und zwischen irgendeiner Gruppe R (oder einem Objekt) der reduzierten Distanzmatrix wird nach F1 gebildet: |
D(R, X+Y) = A*D(R,X)+B*D(R,Y)+E*D(X,Y)+G*abs[D(R,X)-D(R,Y)] | |||
F1 | |||
A, B, E und G sind Konstanten, die vom Verfahren abhängig sind | |||
Tabelle 1 zeigt die Konstanten zum agglomerativen Verfahren: |
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Tabelle 1 |
Im Single-Linkage-Verfahren werden im 1. Schritt die beiden Objekte X und Y vereinigt, die die kleinste Distanz aufweisen. Im Beispiel Abbildung 3 sind das die Objekte X = 5 und Y = 3 mit D(X,Y) = 9,69. Das Objekt D(5,3) stellt nun eine Gruppe (Startpartition) dar. Die Distanz dieser Gruppe wird als Folgeschritt zu den übrigen Objekten R der Gruppe nach F2 (Single Linkage) gebildet: D(R, X+Y) = 0,5*[D(R,X)+D(R,Y)-abs[D(R,X)-D(R,Y)] |
F2 |
Die Objekte der reduzierten Matrix R sind die Objekte 1, 2 und 4. Die neue Distanzmatrix wird nach dem Schema in Abbildung 5 über F2 wie folgt gebildet: |
|
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Durch die ermittelten Distanzen des Objektes D(X,Y) zu den verbleibenden Objekten 1, 2 und 4 erhalten wir, nach Eleminierung der Zeilen und Spalten der fussionierten Objekte D(X,Y) aus der Matrix Abbildung 3, die neue reduzierte Distanzmatrix (Abb. 9): |
|
Abb. 9 |
Führen wir nach Abb. 5 einen weiteren Durchlauf durch! Dazu wird das Objekt 4 (kleinste Distanz) zur Gruppe Objekt 5+3 addiert. Die Distanz zu den verbleibenden Objekten 1 und 2 wird wieder nach F2 berechnet: |
|
| ||||||||||||||||||||||||||||||||||||||||||||
Als Resultat erhalten wir eine neue Distanzmatrix zwischen dem Objekt (5+3+4) und den Objekten 1 und 2 (Abbildung 12): |
|
Abb. 12 |
Die gebildeten Cluster unterliegen Ihrer Interpretation, d. h., ist eine weitere Gruppenbildung sinnvoll oder nicht? Die Gruppenbildung ist ebenso von der Relevanz der betrachteten Objekteigenschaften abhängig. Eingangs wurde als Vorteil der Clusteranalyse genannt, dass alle Objekteigenschaften zur Clusteranalyse herangezogen werden können. Empfehlenswert ist es allerdings, diese bezüglich ihrer Relevanz zu beurteilen. Konstante Objekteigenschaften sollten nicht in die Clusteranalyse einbezogen werden! Wir nehmen uns die Interpretationsfreiheit und beenden die Clusteranalyse für dieses Beispiel mit dem Vorliegen der 3 Clustern Objekt (5+3+4), Objekt 1 und Objekt 2. Das Statistikprogramm R bietet über die Funktion hclust() und deren Methode single (Single-Linkage) eine einfache Möglichkeit der Clusteranalyse. Abbildung 13 zeigt das Ergebnis der Distanzmatrix aus Abbildung 3 über die Funktion hclust(), das mit unserer manuellen Rechnung übereinstimmt: |