Hilfe zu ExcelR

Im Aufbau!

Der grundsätzliche Umgang mit dem Calidris-Menüs wird in den Dokument Der Einstige in Calidris beschrieben. Auf dieser Seite wird beschrieben, welche Datenanalysemethoden über das Calidris-Menü erreicht werden. Die damit verbundenen R-Funktion werden ebenfalls, soweit möglich, als Übersicht erwähnt. Diese Seite kann natürlich keine Einführung in die Statistik/Datenanalyse sein, aber zur weiteren Information werden Sie immer ein Link im Text vorfinden.

 Abhängig von der installierten Calidris-Version können die hier beschriebenen Methoden abweichen.
 

Deskriptive Statistik

Zusammenfassung
Z001DE

Der Menüpunkt Zusammenfassung ist Teil der deskriptiven Statistik und stellt eine Datenübersicht zur Verfügung. Die Datenübersicht besteht aus

Hier ein Beispiel, das in eine Excel-Tabelle kopiert wurde:

Zusammenfassung_Hilfe

R-Funktion: summary(Daten, na.rm = TRUE)

Standardabweichung
S001DE

Der Menüpunkt Standardabweichung  ist Teil der deskriptiven Statistik und schätzt, wie der Name sagt, die Standardabweichung auf Basis der beobachteten Daten und ist eine Streuungsmaß um den beobachteten Mittelwert.

R-Funktion: sd(Daten, na.rm = TRUE)

Anzahl Werte
N001DE

Anzahl Werte zählt die Anzahl der markierten Beobachtungen / Zellen. Zellen bedeutet, dass auch leere Zellen gezählt werden, was auch eine mathematische Entsprechung hat. Durch die dahinter liegende R-Funktion, werden die Elemente des übergebenen Vektors gezählt. Auch ein leeres Element (leere Zelle), ist ein Element.

R-Funktion: length(Daten)

Histogramm
H001DE

Über das Menü Histogramm werden die ausgewählten Daten als Klassenhäufigkeitsgrafik dargestellt. Über ein Histogramm kann sehr schön und einfach die Form einer Verteilung abgeschätzt werden. Hier ein Beispiel:

Histogramm

R-Funktion: hist(Daten, ...)

Boxplot
B001DE

Ebenso wie das Histogramm ist der Boxplot zur Beurteilung der vorliegenden Verteilung geeignet. Ein Beispiel:

Boxplot

R-Funktion: boxplot(Daten, ...)

Inferenzstatistik

Shapiro Test
S002DE

Der Shapiro-Wilk-Test ist ein Hypothesen-Test zur Prüfung auf Normalverteilung der beobachteten Merkmalsausprägung.

R-Funktion: shapiro.test(Daten)

T-Test
T001DE

Der t-Test ist ein Mittelwertvergleichstest. D. h., über diesen Test können Sie Hypothesen prüfen,  ob beispielsweise der Mittelwert Ihrer Beobachtungen einem Erwartungswert (Sollwert...) entspricht oder ob zwei Beobachtungen sich bezüglich der Grundgesamtheit unterscheiden, also verschiedene Beobachtungen sind. Zum Thema Hypothesen-Test empfehle ich Ihnen dieses Video.

R-Funktion: t.test(Daten, ...)

KS Test
K001DE

Der Kolmogorov-Smirnov-Test (KS-Test, Kolgoroff-Smirnoff-Test ) ist ein Anpassungstest auf Normalverteilung. Dieser Test findet Anwendung, wenn die Fallzahl (die Anzahl der Beobachtungen) klein ist.   

R-Funktion: ks.test(Daten, ...)

Kreuztabelle
K002DE

Über Kreuztabellen (Kontingenztabellen) werden Merkmale (Beobachtungen...) in Beziehung gesetzt, um Merkmalsausprägungen strukturiert als Häufigkeiten darzustellen. Es geht hier z. B. um Fragestellungen, ob ein Kunde Produkt A, B oder C bevorzugt und ob z. B. das Geschlecht des Kunden eine Rolle spielt.

R-Funktion: table(Daten, ...)

Chi2-Test
C002DE

Der Chi2-Test ( Chi-Quadrat-Test) Ist ein Anpassungstest. Mit ihm lässt sich prüfen, ob die beobachtete Verteilung einer vorgegebenen Verteilung einspricht. Hier ist der Chi2-Test in einem engen Zusammenhang mit der Kreuztabelle zu sehen.

R-Funktion: chisq.test(Daten, ...)

Prädiktive Analyse

Lineare Regression
R001DE

Den aufgrund von theoretischen Überlegungen vermuteten Zusammenhang zwischen zwei Merkmalen, kann mit der Korrelations- und Regressionsanalyse geprüft werden. Bei der einfachen linearen Regressionsanalyse wird der Zusammenhang zwischen einer unabhängigen Variablen (X) und einer abhängigen Variablen (Y) geprüft. Das folgende Video beschreibt die lineare Regressionsanalyse:

R-Funktion: lm(Y~X, ...)

Multilineare Regression
R002DE

Mit der multiplen linearen Regressionsanalyse werden vermutete Zusammenhänge zwischen mehreren unabhängigen Variablen (X1, X2, ..., Xn) und einer abhängigen Variablen Y untersucht. Zu diesem Thema empfehle ich das Video Multiple lineare Regression.

R-Funktion: lm(Y~X1 + X2 + ... + Xn, ...)

 

 

Explorative Statistik

Clusteranalyse
C001DE

Die statistische Methode  Clusteranalyse steht für unterschiedliche Verfahren zur  Gruppenidentifizierung anhand der Eigenschaften der beobachteten  Objekte. Über diese Eigenschaften werden Verwandtschaften über Distanz- oder Ähnlichkeitsmaße mit den Verfahren der Clusteranalyse ermittelt. Die dann ermittelten Gruppen sollen praktisch keine Ähnlichkeit besitzen. Die Clusteranalyse beurteilt zur Gruppenbildung (Clusterbildung) alle Eigenschaften der beobachteten Objekte (polythetisches Verfahren) und ist ein strukturentdeckendes Verfahren.

Das Video Clusteranalyse mit Calidris beschreibt die Durchführung der Analyse mit Calidris:

 

R-Funktion: hclust(dist(Daten, ...)

MDS
M001DE

Die Multidimensionale Skalierung (MDS) ist eine Methode zur Entdeckung von Strukturen innerhalb des Datensatzes (Beobachtungen). Die Daten können vom Skalenniveau unterschiedlich sein, wichtig ist nur, dass sie als Ähnlichkeits- oder Unähnlichkeitskoeffizienten (Proximitäten) dargestellt werden können. Die Visualisierung der Koeffizienten zur Beurteilung der Ähnlichkeiten oder Unähnlichkeiten ist ein wesentlicher Bestandteil der MDS.

Als Abgrenzung zur Faktorenanalyse müssen die relevanten Eigenschaften der Objekte für die MDS nicht bekannt  sein.

Faktorenanalyse
F001DE

Die Faktorenanalyse ist ein Verfahren, um aus vielen beobachteten Merkmalen (Variablen) auf latente Variablen zu schließen. Die Faktorenanalyse ist ein datenreduzierendes Verfahren und eine methodische Beschreibung finden Sie hier. Bevor Sie eine Faktorenanalyse durchführen, sollte Klarheit über den Begriff latente Variable bestehen. Dieses Video beschreibt das Konzept:

 

Hier das Video Faktorenanalyse mit Calidris:

R-Funktion: factanal(Daten, ...)

PCA
P001DE

Methodisch besteht eine Verwandtschaft zwischen der Faktorenanalyse und der PCA (Principa Component Analysis, Hauptkomponentenanalyse) und sie liefert ähnliche Ergebnisse. Auch hier ist das Ziel der Datenreduktion durch das identifizieren von Zusammenhängen innerhalb der Beobachtungen um auf sog. Hauptkomponenten (latente Variablen) zu schließen.

 

Advanced

 

 

Extras

Basis-Konfiguration
EB01DE

Sie haben die Möglichkeit, Calidris neben weiteren installierten R-Versionen zu betreiben. Welche R-Version Sie nutzen möchten, geben Sie im Bereich Extras -> Konfiguration -> Basis-Konfiguration an:

Basis-Konfiguration

Aus Gründen der Stabilität des Excel-Add-Ins Calidris wird empfohlen, die im Download-Bereich erwähnte R-Version zu nutzen!

 

 

Version vom 13.11.2018

Calidris   Unser Angebot   Über Calidirs   Impressum Datenschutz   Newsletter