?

!

Erläuterung
zu dieser Seite

Dieser Beitrag behandelt lediglich die Visualisierung von Kontingenz. Dabei verzichte ich auf Beweisführungen und Modellherleitungen. Wer mehr über die statistischen Grundlagen, Analyse und Testverfahren erfahren möchte, findet im Internet z. B. unter den Suchbegriffen »(multivariate) Kontingenztafeln« und »Log-lineare Modelle« eine Vielzahl von Skripten engagierter Hochschuldozenten mit den mathematischen Grundlagen.

Als Kontingenz wird in der Statistik der Zusammenhang von nominalskalierten Merkmalen bezeichnet. Sie ist also sozusagen für qualitative Variablen das, was die Korrelation für metrisch skalierte quantitative Variablen ist. Im einfachsten Fall betrachtet man die Häufigkeitsverteilung von zwei Merkmalen, die in jeweils zwei Ausprägungen (Kategorien) vorliegen. Notiert man diese in einer Tabelle, ergeben sich vier Zellen (2 × 2) mit absoluten Häufigkeiten hij. Es können auch die relativen Häufigkeiten fij eingetragen werden, wobei fij = hij/n und n die Anzahl der Beobachtungen ist.

Vierfeldertafel mit absoluten Häufigkeiten
Merkmal B Randhäufigkeiten
b1 b2
Merkmal A a1 h11 h12 h1. = h11 + h12
a2 h21 h22 h2. = h21 + h22
Randhäufigkeiten h.1 = h11 + h21 h.2 = h12 + h22 h.. = n

Sind die Wahrscheinlichkeiten für die Ausprägungen der Merkmale voneinander unabhängig, ergibt sich die Wahrscheinlichkeit für das gemeinsame Auftreten von Merkmalsausprägungen aus dem Produkt der Randwahrscheinlichkeiten, z. B. f12 = f1. × f.2. In diesem Fall lässt sich die Häufigkeitsverteilung grafisch besonders übersichtlich in einem Mosaikdiagramm darstellen: Die Proportionen der Kantenlängen der Felder entsprechen denen der Randhäufigkeiten, die Proportionen der Flächen denen der Zellhäufigkeiten.

Vierfeldertafel als Mosaikdiagramm
Merkmal B
b1 b2
Merkmal A a1 f11 = 0,08 f12 = 0,12 f1. = 0,2
a2 f21 = 0,32 f22 = 0,48 f2. = 0,8
f.1 = 0,4 f.2 = 0,6 f.. = 1

Da im Falle der Unabhängigkeit die Wahrscheinlichkeit für eine Merkmalsausprägung über alle Kategorien des anderen Merkmals gleich ist, lassen sich alle Flächen in einem Raster anordnen. Dies gilt auch noch, wenn die Merkmale in mehr als zwei Kategorien unterteilt sind.

Mosaikdiagramm 3x3
Merkmal B
b1 b2 b3
Merkmal A a1 h11 = 8 h12 = 8 h13 = 12 h1. = 28
f1. = 0,34
a2 h21 = 4 h22 = 4 h23 = 6 h2. = 14
f2. = 0,17
a3 h31 = 12 h32 = 12 h33 = 18 h3. = 42
f3. = 0,5
h.1 = 24
f.1 = 0,29
h.2 = 24
f.2 = 0,29
h.3 = 36
f.3 = 0,43
n = 84

Dies funktioniert so nicht mehr, wenn die Wahrscheinlichkeit einer Merkmalsausprägung durch die Ausprägung eines anderen Merkmals beeinflusst wird. Zum Beispiel, wenn die Kategorie »braun« des Merkmals »Augenfarbe« mit der Kategorie »schwarz« des Merkmals »Haarfarbe« gekoppelt ist. Solche Assoziationen können durch direkte Wirkungen der betrachteten Faktoren oder über weitere Faktoren außerhalb der Betrachtung bedingt werden.
In manchen Fällen ist die Einseitigkeit der Wirkung unzweifelhaft. Zum Beispiel mag das Geschlecht des Wählers das Wahlverhalten beeinflussen, aber nicht das Wahlverhalten das Geschlecht der Wähler. Beim Spineplot, einer Form des Mosaikdiagramms, kann die Breite der Balken durch die Randhäufigkeiten der Kategorien der unabhängigen Variable bestimmt werden. Die Höhe der gestapelten Balkensegmente ist dann proportional zu den bedingten Häufigkeiten der Kategorien der abhängigen Variablen, kann also über die Kategorien der unabhängigen Variablen variieren.
Wenn die Randhäufigkeiten einer Variablen bereits durch das Schema der Datenerhebung festgelegt wurden, anstatt sich erst aus den beobachteten Häufigkeiten zu ergeben, empfiehlt sich die Darstellung als Balkenstapeldiagramm.

Spineplot
a1 a1 b1: 24 a1 b2: 20 a1 b3: 16 a1 b4: 10 a1 b5: 4 a2 a2 b1: 12 a2 b2: 10 a2 b3: 4 a2 b4: 6 a2 b5: 6 a3 a3 b1: 4 a3 b2: 16 a3 b3: 4 a3 b4: 5 a3 b5: 2 unabhängige Variable A abhängige Variable B
Balkenstapeldiagramm
Kontrollgruppe Kontrollgruppe b1: 24 Kontrollgruppe b2: 20 Kontrollgruppe b3: 16 Kontrollgruppe b4: 10 Kontrollgruppe b5: 4 Medikament_1 Medikament_1 b1: 12 Medikament_1 b2: 10 Medikament_1 b3: 4 Medikament_1 b4: 6 Medikament_1 b5: 6 Medikament_2 Medikament_2 b1: 4 Medikament_2 b2: 16 Medikament_2 b3: 4 Medikament_2 b4: 5 Medikament_2 b5: 2 100% 50% 0% b1 b2 b3 b4 b5

Nur aufgrund der Häufigkeitsverteilung lässt sich zwar eine Assoziation von Merkmalen, aber keine Richtung der Abhängigkeit erkennen. Wenn die Art der Interaktion zwischen den Faktoren nicht eindeutig bestimmt werden kann, bleiben auch verschiedene Möglichkeiten der grafischen Interpretation. So ließen sich dieselben Werte wie im oben stehenden Spineplot mit A als unabhängiger Variable auch als Spineplot mit B bedingt durch A darstellen. Beide Darstellungen lassen klar erkennen, dass die Häufigkeitsverteilungen der Variablen A und B nicht voneinander unabhängig sind.

Spineplot: B bedingt durch A
a1 a1 b1: 24 a1 b2: 20 a1 b3: 16 a1 b4: 10 a1 b5: 4 a2 a2 b1: 12 a2 b2: 10 a2 b3: 4 a2 b4: 6 a2 b5: 6 a3 a3 b1: 4 a3 b2: 16 a3 b3: 4 a3 b4: 5 a3 b5: 2 Variable A Variable B b1 b2 b3 b4 b5
Spineplot: A bedingt durch B
b1 b1 a1: 24 b1 a2: 12 b1 a3: 4 b2 b2 a1: 12 b2 a2: 10 b2 a3: 16 b3 b3 a1: 8 b3 a2: 4 b3 a3: 4 b4 b4 a1: 5 b4 a2: 6 b4 a3: 5 b5 b5 a1: 2 b5 a2: 6 b5 a3: 2 Variable B Variable A a1 a2 a3

Weitere Varianten des Mosaikplots basieren auf der Darstellung der erwarteten Häufigkeiten eij unter Annahme der Unabhängigkeit. Die Flächen der Felder werden anhand der beobachteten Randhäufigkeiten errechnet. Anschließend wird die Abweichung der beobachteten von den erwarteten Häufigkeiten durch Muster oder Farben der Felder kenntlich gemacht.
Beim Parkettdiagramm (auch Siebdiagramm genannt) werden die einzelnen Felder durch Linien so in Quadrate unterteilt, dass die Anzahl der Quadrate pro Feld der Anzahl der tatsächlichen Beobachtungen entspricht. Je weiter die beobachtete Häufigkeit unter der erwarteten liegt, umso weiter fällt das Raster aus. Und je weiter die beobachtete Häufigkeit über der erwarteten liegt, umso enger wird das Raster. Zusätzlich werden die Felder, deren Häufigkeitswert vom Erwartungswert abweicht, durch Farbe oder Strichelung der Linien kenntlich gemacht.
Im Beispiel sind die Linien der Felder mit höherer Häufigkeit als unter Annahme von Unabhängigkeit erwartet blau, und die der Felder mit geringerer Häufigkeit rot. So wurden bei insgesamt 143 Beobachtungen 20 Fälle gezählt, bei denen die Merkmalsausprägungen a1 und b2 zusammen auftraten. Unter der Annahme von Unabhängigkeit der Merkmale würden aber 23,8 erwartet werden.

Sieb- oder Parkettdiagramm
a1 b1; h: 24; e: 20.7 a1 b2; h: 20; e: 23.8 a1 b3; h: 16; e: 12.4 a1 b4; h: 10; e: 10.9 a1 b5; h: 4; e: 6.2 a1 a2 b1; h: 12; e: 10.6 a2 b2; h: 10; e: 12.2 a2 b3; h: 4; e: 6.4 a2 b4; h: 6; e: 5.6 a2 b5; h: 6; e: 3.2 a2 a3 b1; h: 4; e: 8.7 a3 b2; h: 16; e: 10 a3 b3; h: 4; e: 5.2 a3 b4; h: 5; e: 4.6 a3 b5; h: 2; e: 2.6 a3 b1 b2 b3 b4 b5 Variable A Variable B
Sieb- oder Parkettdiagramm
a1 b1; h: 2400; e: 2069.9 a1 b2; h: 2000; e: 2380.4 a1 b3; h: 1600; e: 1242 a1 b4; h: 1000; e: 1086.7 a1 b5; h: 400; e: 621 a1 a2 b1; h: 1200; e: 1062.9 a2 b2; h: 1000; e: 1222.4 a2 b3; h: 400; e: 637.8 a2 b4; h: 600; e: 558 a2 b5; h: 600; e: 318.9 a2 a3 b1; h: 400; e: 867.1 a3 b2; h: 1600; e: 997.2 a3 b3; h: 400; e: 520.3 a3 b4; h: 500; e: 455.2 a3 b5; h: 200; e: 260.1 a3 b1 b2 b3 b4 b5 Variable A Variable B

Ein Quadrat entspricht 10 Beobachtungen.