Zurück...

Multidimensionale Skalierung - MDS

Die MDS ist eine Sammlung statistischer Analysenmethoden zur Entdeckung von Strukturen innerhalb von Beobachtungen.

Die Daten (Beobachtungen) können vom Skalenniveau unterschiedlich sein, wichtig ist nur, dass sie als Ähnlichkeits- oder Unähnlichkeitskoeffizienten (Proximitäten) dargestellt werden können. Die Visualisierung der Koeffizienten zur Beurteilung der Ähnlichkeiten oder Unähnlichkeiten ist ein wesentlicher Bestandteil der MDS.
Die Beobachtungen stellen oft subjektive Wahrnehmungen von Objekten durch Personen dar. Im Allgemeinen hat eine Person ihre Vorstellung bezüglich Objekt A und Objekt B (z. B. die Qualitätseinschätzung von Fahrzeug A zu Fahrzeug B). Diese Vorstellung ist dann eine Position im Wahrnehmungsraum der Person. Die Gesamtheit der Positionen der Objekte im Wahrnehmungsraum wird Konfiguration genannt. Die Einschätzung des Qualitätsunterschiedes für die Fahrzeuge entspricht einer Dimension. Wird noch eine weitere Vergleichsbeurteilung erhoben, z. B. bezüglich der Fahrzeugsportlichkeit, kommt noch eine weitere Dimension zum Wahrnehmungsraum hinzu (Abb1).

Abb. 1: Wahrnehmungsraum

Als Abgrenzung zur Faktorenanalyse müssen die relevanten Eigenschaften der Objekte für die MDS nicht bekannt sein. Das heißt, dass der Befragungsteilnehmer (Für die Argumentation wird von einer Befragung ausgegangen.) nur die subjektiv empfundene Ähnlichkeit / Unähnlichkeit zwischen zwei Objekten einschätzt. Ein möglicherweise oft gehörtes Beispiel ist eine Ähnlichkeitsaussage zwischen Gesichtern, wie “Die Tochter sieht dem Vater aber ähnlich!”. Die Ähnlichkeitsaussage wird i. d. R. subjektiv getroffen, ohne das “Messwerte” vorliegen. Der Nachteil ist allerdings, dass die Ergebnisse einer MDS schwierig zu interpretieren sind! Hier hilft Visualisierung, Kenntnisse über Umfeld / Daten und der gesunde Menschenverstand weiter.

Konzept der MDS

Das Konzept der MDS wird häufig über das Erstellen einer Landkarte auf Basis einer Städteentfernungstabelle (Abb. 2) erklärt. Die Entfernungsangaben in Abb. 2 spiegeln nicht die geographische Lage der Städte wieder, sondern nur paarweise Distanzen zwischen den Städten. D. h., die Entfernung zwischen Augsburg und Aachen beträgt 570 km. Die Landkarte stellt im Sinne der MDS eine Konfiguration im (zweidimensionalen) Wahrnehmungsraum aufgrund der Städte-Entfernungsangaben dar.

 

Aachen

Augsburg

Bayreuth

Berlin

 Aachen

 

 

 

 

 Augsburg

570

 

 

 

 Bayreuth

532

239

 

 

 Berlin

637

593

352

 

 Bremen

369

715

572

375

Abb. 2: Städteentfernungstabelle
Auszug aus der Entfernungstabelle Deutschland
mit freundlicher Genehmigung der
Internet Marketing Hannover GbR

Über die MDS soll nun über die paarweisen Distanzen die relative Lage der Städte zueinander, also die Konfiguration,  der Städte ermittelt werden. Die Entfernungsangaben in Abb. 2 können als Rangwerte interpretiert werden, wie in Abb.3 dargestellt. Die geringste Entfernung in Abb. 2 stellt in Abb. 3 den Rangwert 1 dar:

 

Aachen

Augsburg

Bayreuth

Berlin

...

 Aachen

 

 

 

 

 

 Augsburg

6

 

 

 

 

 Bayreuth

5

1

 

 

 

 Berlin

9

8

2

 

 

 Bremen

3

10

7

4

 

...

...

...

...

...

...

Abb. 3: Städteentfernung als Ränge

Abb.4 zeigt die Konfiguration des zweidimensionalen Wahrnehmungsraums Landkarte für die Distanzränge Bremen, Augsburg und Berlin aus Abb. 3. Willkürlich wurde die Konstruktion mit der Distanz zwischen den Städten Bremen und Augsburg angefangen. Als 3. Stadt wird Berlin mit der Distanz Bremen - Berlin und Augsburg - Berlin in den Wahrnehmungsraum aufgenommen. Die Position von Berlin zu Augsburg aufgrund der Distanz (Abb. 2) lässt sich nur als Kreisbahn mit dem Distanzradius um Augsburg (blauer Kreis) beschreiben (Abb. 4). Die Position von Berlin zu Bremen wird ebenso als Kreisbahn mit dem Distanzradius Bremen-Berlin um Bremen (türkisener Kreis) abgebildet. Abb. 4 zeigt, dass die beiden Distanzkreise sich in 2 Punkten schneiden und somit ergeben sich 2 mögliche Lagen (Konfigurationen) für Berlin (dargestellt durch ein hellgraues und dunkelgraues Berlin) im Wahrnehmungsraum (Abb. 4). Welche Konfiguration (Lage von Berlin) gewählt wird, spielt keine Rolle für die MDS, da die beiden Konfigurationen spiegelbildlich identisch sind! D. h., die Konfiguration ist unabhängig von Spiegelung und Drehung (Rotation). Bei der MDS geht es nur darum, die relative Position der Objekte zueinander abzubilden!

Abb. 4: Städtekonfiguration Landkarte

Für den Wahrnehmungsraum Landkarte steht die zweidimensionale Struktur fest und die Konfiguration für die 3 Beispielobjekte (Städte) ist sicher optimal. Anders sieht es für subjektive Wahrnehmungen über Objekte oder Zusammenhänge aus. Sind die dazu erhobenen Daten in hohem Maße  verbunden (hoch strukturiert),  kann ein höher dimensionierter Darstellungsraum (Wahrnehmungsraum) erforderlich sein. Auch hierbei gilt, Kenntnisse über die Daten hilft bei der Wahl der Darstellungsraumdimension und somit der Güte der Konfiguration. Wie oben schon erwähnt, soll die MDS die Daten dem Auge zugänglich machen und das Entdecken der Datenstruktur erleichtern. Das sollten Sie beim Zusammenspiel Dimension und Konfigurationsgüte ( Stress) berücksichtigen. Im Allgemeinen bedeutet ein höherdimensionaler Darstellungsraum einen geringeren Stress, weil zur optimalen Anpassung der Punkte mehr Möglichkeiten (Dimensionen) zur Verfügung stehen. Aber mehr dazu später!

Bestimmung der Ähnlichkeit/Unähnlichkeit

Die Konfiguration des Wahrnehmungsraumes (Darstellungsraumes) für Städtedistanz ist im Vergleich zur subjektiven Objektwahrnehmung ohne größere Probleme zu bestimmen. Die Position der Objekte im subjektiven Wahrnehmungsraum ist über Ähnlichkeit oder Unähnlichkeit der Objekte zueinander möglich. Je dichter zwei Objekte im Wahrnehmungsraum beieinander liegen, desto ähnlicher werden sie empfunden und folglich, je weiter sie auseinander liegen, desto unähnlicher. Wenn wir auf das Fahrzeugbeispiel zurückkommen, werden Fahrzeuge der Marke “VW” und “Opel” sicher ähnlicher empfunden, als “VW” und “Mercedes-Benz”.

Wie werden die Ähnlichkeitsurteile ermittelt? Ähnlichkeitsurteile beziehen sich auf Paare von Objekten, die über Befragungen nach subjektiven Urteilen (z. B. das Prestige der Fahrzeugmarken “VW” und “Mecedes-Benz”) oder aber über Korrelationskoeffizienten bestimmt werden.
Für subjektive Beurteilungen kann das als klassisch zu bezeichnende Verfahren der Rangreihen-Methode herangezogen werden. Die befragte Person wird dabei gebeten, Objektpaare nach ihrer empfundenen Ähnlichkeit oder Unähnlichkeit in eine Rangfolge zu bringen. Z. B. wie die Ähnlichkeit bezüglich des Farhrzeugprestige eingeschätzt wird. Die Ähnlichkeit (Unähnlichkeit) wird dann subjektiv durch den Befragten in der Form festgelegt, dass als ähnlich eingeschätzte Fahrzeuge als Paar festgelegt werden (vielleicht durch zwei Fahrzeugsymbolkarten). Bei n Objekten sind dann n(n-1)2 Paare zu bilden. Sie können sehr leicht durchrechnen, dass die Zahl der zu bildenden Paare mit der Anzahl der Objekte überproportional zunimmt. Wurden die Paare gebildet, werden sie entsprechend ihrer Reihenfolge mit Zahlen (hier interpretiert als Rangwerte) versehen.

Bei der Ankerpunktmethode dient jedes Objekt genau einmal als Vergleichsobjekt (als Ankerpunkt) für die verbleibenden Objekte, um diese in eine Ähnlichkeitsrangfolge zum Ankerpunkt zu bringen. D. h., “VW” wird z. B . als Ankerpunkt gewählt und dann die restlichen Fahrzeugmodelle bezüglich der Ähnlichkeit für die interessierende Eigenschaft beurteilt. Die Ähnlichkeitsbeurteilung wird mit einer Rangzahl versehen. Somit erhält man für n Objekte n(n-1) Rangwerte. Die aus dieser Methode resultierende Rangmatrix ist nicht unbedingt symmetrisch, da sich beim Vergleich der Objekte mit Ankerpunkt A im Vergleich zu Ankerpunkt B die Rangwerte unterscheiden können.

Eine weitere Methode ist das Ratingverfahren (auch Likert-Skala nach Renisis Likert). Hier werden die Ähnlichkeitseinschätzungen (Unähnlichkeits-) auf einer Skala eingestuft. Abb. 5 zeigt eine 5-stufige Ratingskala, wobei Stufe 1 z. B. “vollkommen ähnlich” und Stufe 5 “vollkommen unähnlich” bedeuten kann. Die Zwischenstufen können zur Ausprägung der empfundenen Ähnlichkeit/Unähnlichkeit genutzt werden, wenn die Stufe 1 oder 5 subjektiv nicht vergeben werden kann. Die 3. Stufe nimmt in der 5-stufigen Skala oft eine neutrale Ausprägung ein.

Ratingskala
Abb. 5: Ratingskala

Neben der 5-stufigen Ratingskala sind auch 7- oder 9-stufige Ratingskalen in Verwendung. In der Literatur finden Sie Hinweise, keine ungeraden Ratingskalen wie in Abb. 5 gezeigt, sondern gerade Ratingskalen zu verwenden. Dadurch soll der Befragte gezwungen werden, sich für eine Ähnlichkeits- oder Unähnlichkeitsaussage zu entscheiden . Es soll verhindert werden, dass der Befragte durch die Wahl der mittleren Ausprägung, in Abb. 5 ist es die 3, sich um eine Entscheidung drückt!
Die Ähnlichkeits- und Unähnlichkeitsaussagen sind symmetrisch, d. h. die Ähnlichkeit zwischen den Objekten A und B entspricht der Ähnlichkeit zwischen den Objekten B und A. Dadurch sind für n Objekte n(n-1)/2 Objektpaare zu beurteilen. Das Ratingverfahren ist sehr beliebt, da es schnell durchzuführen ist und dadurch die befragten Personen nicht zu sehr belastet (Auskunftsmüdigkeit).
Nachteilig wirkt sich die Verwendung von geringstufigen Ratingskalen (z. B. 5 Stufen) aus, da es bei einer großen Zahl von Objekten durchaus vorkommen kann, dass unterschiedliche Objektpaare gleiche Ähnlichkeitswerte, sog. Ties (Bindungen), aufweisen. Durch Ties wird die Stabilität der Konfiguration verringert. Eine “Umgehungsmöglichkeit” kann das Aggregieren von Gruppen/Personen durch die Bildung von Median oder Mittelwert bieten.

Das Distanzmodell

Die Ähnlichkeit von Objekten im Wahrnehmungsraum wird über Distanzen (auch Abstände, Metriken) abgebildet. Ähnliche Objekte liegen dicht zusammen, die Distanz ist gering, und für unähnliche Objekten liegen weiter auseinander, die Distanz ist größer. Dabei gilt für die Distanzen d

                0 <= dij   und

                dij = dji    (Symmetrie).

Die Distanzbestimmung ist in der MDS der wesentliche Bestandteil und dafür stehen verschiedene Verfahren zur Verfügung. Die oft genutzte euklidische Distanz (weil sie natürlicher zu interpretieren ist, siehe Konfiguration) wird neben weiteren Distanzverfahren hier beschrieben!

Bestimmung der Konfiguration

Die Bestimmung einer MDS-Konfiguration ist in den meisten Fällen mathematisch aufgrund der komplizierten Lösungsbedingungen  nicht exakt durchführbar. Deswegen wird die Konfiguration iterativ durch Annäherungen bestimmt. Dabei wird bei einer Ausgangsbedingung gestartet und durch den Annäherungsalgorithmus wird versucht, die im Iterationsschritt erhaltene Lösung in weiteren Iterationsschritten zu verbessern. Ein Gütekriterium ist hierbei die Minimierung des Stresses, bis die Proximitäten als optimal betrachtet werden können.  Je größer das Stress -Kriterium ausfällt, desto schlechter ist die Anpassung der Distanzen (siehe hierzu Backhaus oder Borg). Dabei ist immer zu bedenken, dass die iterative Lösung nicht die bestmögliche Lösung sein muss, sondern aufgrund des “Hängenbleibends” des Lösungsalgorithmuses in einem lokalen Optimum nur die lokale optimale Lösung sein kann!

MDS-Konfiguration mit R

Die MDS-Konfigurationen werden im Folgenden über die Statistikumgebung R mit Hilfe des Paketes smacof geschätzt. Das smacof-Paket bietet einige MDS-Methoden an aber deren Beschreibung kann aufgrund des Umfanges hier nicht erfolgen! Neben den MDS-Methoden werden auch entsprechende Beispieldatensätze angeboten . Das erste MDS-Beispiel wird mit dem Datensatz kinshipdelta (Verwandschaftsverhältnis) durchgeführt. Der Datensatz kinshipdelta wird hier auszugweise abgebildet:

> data(kinshipdelta)
> kinshipdelta
              Aunt Brother Cousin Daughter Father Granddaughter Grandfather ...
Aunt             0      79     53       59     73            57          77      55  
Brother         79       0     67       62     38            75          57      80  
Cousin          53      67      0       74     77            74          76      78  
Daughter        59      62     74        0     57            46          77      54  
Father          73      38     77       57      0            79          51      70 
Granddaughter   57      75     74       46     79             0          57      32  
Grandfather      ...
 

Über die symmetrische Funktion smacofSym wird eine “normale” zweidimensionale MDS-Konfiguration im Wahrnehmungsraum geschätzt ( ist dietype = "ratio" Voreinstellung):

      > MDS_Schaetzung <- smacofSym(kinshipdelta, type = "ratio")
      > MDS_Schaetzung

      Call:
      smacofSym(delta = kinshipdelta, type = "ratio")

      Model: Symmetric SMACOF
      Number of objects: 15
      Stress-1 value: 0.264
      Number of iterations: 91

Der Datensatz besteht aus 15 Beobachtungen (Number of objects: 15). Die optimale Konfiguration wurde nach 91 Iterationen (Number of iterations: 91) mit einem Stress-Gütekriterium von  0.264 erreicht. Über die Funktion summary() werden die Schätzungen zur Konfiguration ausgegeben:

      > summary(MDS_Schaetzung)

      Configurations:
                         D1      D2
      Aunt           0.3081  0.6436
      Brother       -0.4239 -0.5302
      Cousin        -0.2182  0.8434
      Daughter       0.3914 -0.3705
      Father        -0.1565 -0.6829
      Granddaughter  0.5192  0.1394
      Grandfather   -0.7060 -0.1227
      Grandmother    0.6987  0.1592
      Grandson      -0.5207 -0.0935
      Mother         0.4364 -0.5686
      Nephew        -0.3822  0.4104
      Niece          0.2024  0.5361
      Sister         0.6011 -0.3124
      Son           -0.2027 -0.4987
      Uncle         -0.5473  0.4474


      Stress per point (in %):
               Aunt       Brother        Cousin      Daughter        Father Granddaughter   Grandfather   Grandmother      Grandson        Mother
               6.24          7.49          6.20          4.04          4.88          8.50         11.17         11.25          8.55          4.86
             Nephew         Niece        Sister           Son         Uncle
               4.48          4.26          7.44          4.26          6.40
       

Wie oben im Text erwähnt, ist das Wesentliche einer MDS die Darstellung der Konfiguration im Wahrnehmungsraum. Über die plot-Funktion wird die Konfiguration über Distanzkoordinaten D1 und D2 dargestellt:

      > plot(MDS_Schaetzung, type = "p", label.conf = list(TRUE, 3, "darkgray"), pch = 25, col = "red", main="Konfiguration des Verwandschaftsverhältnisses")
       

      MDS_4

Abb. 6: Zweidimensionale Konfiguration im Wahrnehmungsraum

Die Ähnlichkeit zwischen Vater/Sohn/Bruder und Mutter/Tochter/Schwester trifft sicher die Erwartung aber letztendlich ist die Beziehung im Wahrnehmungsraum beeindruckend! Die Bereiche lassen sich durch “Vertrauensbereich-Ellipsen”(plot(confEllipse(MDS_Schaetzung))) optisch unterstützen.

Als zweites Beispiel wird eine MDS-Konfiguration im dreidimensionalen Wahrnehmungsraum abgebildet. Für den Datensatz breakfast des Paketes smacof wird eine Unfolding-Modell-MDS über die Funktion smacofRect() (rectangular SMACOF) geschätzt (siehe Borg).

      > breakfast
         toast butoast engmuff jdonut cintoast bluemuff hrolls toastmarm butoastj
      1     13      12       7      3        5        4      8        11       10
      2     15      11       6      3       10        5     14         8        9
      3     15      10      12     14        3        2      9         8        7
      4      6      14      11      3        7        8     12        10        9
      5     15       9       6     14       13 ...

      ..

      > MDS_3D <- smacofRect(breakfast, ndim = 3)
      > MDS_3D

      Call: smacofRect(delta = breakfast, ndim = 3)

      Model:               Rectangular smacof
      Number of subjects:  42
      Number of objects:   15
      Transformation:      none
      Conditionality:      matrix

      Stress-1 value:    0.284158
      Penalized Stress:  1.862632
      Number of iterations: 203

Der Datensatz breakfast besteht aus 42 Beobachtungen (Befragungsteilnehmern) mit ihren Frühstückpräferenzen. Über die Funktion summary(MDS_3D) können die Daten zur MDS-Schätzung ausgegeben werden. Hier beschränken wir uns auf die grafische Darstellung des Wahrnehmungsraums mit Hilfe des R-Paketes rgl:

      > plot3d(MDS_3D$conf.row, type = "s",  size = 1)
      > grid3d(c("x", "y+", "z"))
      >  title3d(main = "MDS im dreidimensionalen Wahrnehmungsraum", pos = c(0.3,0.3,0.8))
      MDS_5

      Abb. 7: Dreidimensionale Konfiguration im Wahrnehmungsraum

 Die erzeugte Grafik können Sie über die Maus beliebig drehen!

 

Seitenanfang

Hat der Inhalt Ihnen weitergeholfen und Sie möchten diese Seiten unterstützen?

Impressum

Datenschutz