?
!
Erläuterung
zu dieser Seite
Dieser Beitrag behandelt lediglich die Visualisierung von Kontingenz. Dabei verzichte ich auf Beweisführungen und Modellherleitungen. Wer mehr über die statistischen Grundlagen, Analyse und Testverfahren erfahren möchte, findet im Internet z. B. unter den Suchbegriffen »(multivariate) Kontingenztafeln« und »Log-lineare Modelle« eine Vielzahl von Skripten engagierter Hochschuldozenten mit den mathematischen Grundlagen.
Als Kontingenz wird in der Statistik der Zusammenhang von nominalskalierten Merkmalen bezeichnet. Sie ist also sozusagen für qualitative Variablen das, was die Korrelation für metrisch skalierte quantitative Variablen ist. Im einfachsten Fall betrachtet man die Häufigkeitsverteilung von zwei Merkmalen, die in jeweils zwei Ausprägungen (Kategorien) vorliegen. Notiert man diese in einer Tabelle, ergeben sich vier Zellen (2 × 2) mit absoluten Häufigkeiten hij. Es können auch die relativen Häufigkeiten fij eingetragen werden, wobei fij = hij/n und n die Anzahl der Beobachtungen ist.
Merkmal B | Randhäufigkeiten | |||
---|---|---|---|---|
b1 | b2 | |||
Merkmal A | a1 | h11 | h12 | h1. = h11 + h12 |
a2 | h21 | h22 | h2. = h21 + h22 | |
Randhäufigkeiten | h.1 = h11 + h21 | h.2 = h12 + h22 | h.. = n |
Sind die Wahrscheinlichkeiten für die Ausprägungen der Merkmale voneinander unabhängig, ergibt sich die Wahrscheinlichkeit für das gemeinsame Auftreten von Merkmalsausprägungen aus dem Produkt der Randwahrscheinlichkeiten, z. B. f12 = f1. × f.2. In diesem Fall lässt sich die Häufigkeitsverteilung grafisch besonders übersichtlich in einem Mosaikdiagramm darstellen: Die Proportionen der Kantenlängen der Felder entsprechen denen der Randhäufigkeiten, die Proportionen der Flächen denen der Zellhäufigkeiten.
Merkmal B | ||||
---|---|---|---|---|
b1 | b2 | |||
Merkmal A | a1 | f11 = 0,08 | f12 = 0,12 | f1. = 0,2 |
a2 | f21 = 0,32 | f22 = 0,48 | f2. = 0,8 | |
f.1 = 0,4 | f.2 = 0,6 | f.. = 1 |
Da im Falle der Unabhängigkeit die Wahrscheinlichkeit für eine Merkmalsausprägung über alle Kategorien des anderen Merkmals gleich ist, lassen sich alle Flächen in einem Raster anordnen. Dies gilt auch noch, wenn die Merkmale in mehr als zwei Kategorien unterteilt sind.
Merkmal B | |||||
---|---|---|---|---|---|
b1 | b2 | b3 | |||
Merkmal A | a1 | h11 = 8 | h12 = 8 | h13 = 12 | h1. = 28 f1. = 0,34 |
a2 | h21 = 4 | h22 = 4 | h23 = 6 | h2. = 14 f2. = 0,17 |
|
a3 | h31 = 12 | h32 = 12 | h33 = 18 | h3. = 42 f3. = 0,5 |
|
h.1 = 24 f.1 = 0,29 |
h.2 = 24 f.2 = 0,29 |
h.3 = 36 f.3 = 0,43 |
n = 84 |
Dies funktioniert so nicht mehr, wenn die Wahrscheinlichkeit einer
Merkmalsausprägung durch die Ausprägung eines anderen Merkmals
beeinflusst wird. Zum Beispiel, wenn die Kategorie »braun« des Merkmals
»Augenfarbe« mit der Kategorie »schwarz« des Merkmals »Haarfarbe« gekoppelt
ist. Solche Assoziationen können durch direkte Wirkungen der betrachteten Faktoren oder
über weitere Faktoren außerhalb der Betrachtung bedingt werden.
In manchen Fällen ist die Einseitigkeit der Wirkung unzweifelhaft. Zum
Beispiel mag das Geschlecht des Wählers das Wahlverhalten beeinflussen, aber nicht das
Wahlverhalten das Geschlecht der Wähler. Beim Spineplot, einer Form des
Mosaikdiagramms, kann die Breite der Balken durch die Randhäufigkeiten der Kategorien
der unabhängigen Variable bestimmt werden. Die Höhe der gestapelten
Balkensegmente ist dann proportional zu den bedingten Häufigkeiten der
Kategorien der abhängigen Variablen, kann also über die Kategorien der
unabhängigen Variablen variieren.
Wenn die Randhäufigkeiten einer
Variablen bereits durch das Schema der Datenerhebung festgelegt wurden,
anstatt sich erst aus den beobachteten Häufigkeiten zu ergeben, empfiehlt
sich die Darstellung als Balkenstapeldiagramm.
Nur aufgrund der Häufigkeitsverteilung lässt sich zwar eine Assoziation von Merkmalen, aber keine Richtung der Abhängigkeit erkennen. Wenn die Art der Interaktion zwischen den Faktoren nicht eindeutig bestimmt werden kann, bleiben auch verschiedene Möglichkeiten der grafischen Interpretation. So ließen sich dieselben Werte wie im oben stehenden Spineplot mit A als unabhängiger Variable auch als Spineplot mit B bedingt durch A darstellen. Beide Darstellungen lassen klar erkennen, dass die Häufigkeitsverteilungen der Variablen A und B nicht voneinander unabhängig sind.
Weitere Varianten des Mosaikplots basieren auf der Darstellung der
erwarteten Häufigkeiten eij unter Annahme der
Unabhängigkeit. Die Flächen der Felder werden anhand der beobachteten
Randhäufigkeiten errechnet. Anschließend wird die Abweichung der
beobachteten von den erwarteten Häufigkeiten durch Muster oder Farben der
Felder kenntlich gemacht.
Beim Parkettdiagramm (auch
Siebdiagramm genannt) werden die einzelnen Felder durch Linien so
in Quadrate unterteilt, dass die Anzahl der Quadrate pro Feld der Anzahl der
tatsächlichen Beobachtungen entspricht. Je weiter die beobachtete Häufigkeit
unter der erwarteten liegt, umso weiter fällt das Raster aus. Und je weiter
die beobachtete Häufigkeit über der erwarteten liegt, umso enger wird das
Raster. Zusätzlich werden die Felder, deren Häufigkeitswert vom
Erwartungswert abweicht, durch Farbe oder Strichelung der Linien kenntlich
gemacht.
Im Beispiel sind die Linien der Felder mit höherer Häufigkeit als
unter Annahme von Unabhängigkeit erwartet blau, und die der Felder mit
geringerer Häufigkeit rot. So wurden bei insgesamt 143 Beobachtungen
20 Fälle gezählt, bei denen die Merkmalsausprägungen
a1 und b2 zusammen auftraten. Unter der
Annahme von Unabhängigkeit der Merkmale würden aber 23,8 erwartet werden.
Ein Quadrat entspricht 10 Beobachtungen. |