Mythos der Repräsentativität

Repräsentativität ist theoretisch möglich, aber praktisch unmöglich.

Warum?

Wir haben die wichtigsten Gründe zusammengestellt.

Beginnen wird mit der Worbedeutung von Repräsentativität. Etwas soll für etwas anderes repräsentativ sein. In der Regel machen 1000 Befragte bei Meinungsforschungsinstituten einen repräsentativen Sample aus, von dem aus Aussagen über die Bevölkerung in Deutschland gemacht werden. 1000 Befragte sollen also für rund 80 Millionen Einwohner repräsentativ sein.

Die Frage, die sich nun aufdrängt lautet: repräsentativ im Hinblick worauf?

Menschen können über eine Vielzahl von Merkmalen beschrieben werden: Schuhgröße, Augenfarbe, Intellekt, Sprachfähigkeit, Haarlänge, Sauberkeit, Nasenlänge, Lebensstil, Einstellung zu Gewalt, zu Flüchtlingen, Laufgeschwindigkeit, Körperfülle, Fitness, Wohnort, Fernsehkonsum, Beeinflussbarkeit, Kaffeeverbrauch, Körpergröße, BMI, Alter, Einkommen, um nur einige zu nennen.

Was sind also die Merkmale, die im Alchemistenlabor der Meinungsforscher genutzt werden, um angeblich Repräsentativität herzustellen?

Zunächst ist es eine Zufallsauswahl, d.h.: Wenn jeder deutsche Bürger dieselbe Chance hat, befragt zu werden, wenn es also für den Arbeiter bei der BASF mit Schuhgröße 45 ebenso wahrscheinlich ist, befragt zu werden, wie für den Bürgermeister von Leipzig, dann soll eine Auswahl repräsentativ sein, egal, ob der Arbeiter in der BASF oder der Bürgermeister von Leipzig dann auch befragt tatsächlich wurde. Was zählt, ist die gleiche Wahrscheinlichkeit, befragt zu werden.

Das ist die wohlwollende Definition von Repräsentativität. Eine exakte Definition, die die Problematik, die sich mit Repräsentativität verbindet und regelmäßig dazu führt, dass das Unternehmen “Repräsentatitivität” scheitert, wäre: Eine Stichprobe ist dann ein repräsentatives Abbild einer Grundgesamtheit, wenn alle Merkmale und Merkmalskombinationen, die im Hinblick auf die Fragestellung von Wichtigkeit sind, im selben Anteil vorhanden sind wie in der Grundgesamtheit. Nur dann sind die entsprechenden Merkmale oder Merkmalskombinationen nämlich angemessen repräsentiert. Diese Definition macht einerseits die Problematik von “Repräsentativität” deutlich, denn um die Kriterien von Repräsentativität zu erfüllen, muss vorab bekannt sein, was erst untersucht werden müsste. Andererseits zeigt die Definition, warum der Ausrede über die Zufallsstichprobe für viele Repräsentativitäts-Alchemisten so wichtig ist.

Aber selbst wenn man den Repräsentativitäts-Alchemisten ihre Zufallsauswahl lässt, ergeben sich Probleme, die unüberwindbar sind. So haben wir bereits in der Vergangenheit dargelegt, dass es nicht möglich ist, die Voraussetzungen zu erfüllen, die an eine Zufallsauswahl auch nur der erwachsenen Wohnbevölkerung in Deutschland gestellt werden. Eine Vielzahl von Gründen steht der Auswahl einer repräsentativen Menge von erwachsenen Deutschen per Zufallsauswahl im Wege.

Nehmen wir an, sie wollen eine Telefonumfrage durchführen. Das ist die Umfrageform, die derzeit am häufigsten genutzt wird. Nehmen wir weiter an, Sie haben ein Befragungsinstitut mit einem Telefonpool und rufen abends von 17 Uhr bis 22 Uhr die Personen an, die sie aus dem Telefonbuch zufällig gezogen haben:

Alle, die nicht im Telefonbuch stehen, eine Geheimnummer haben, sind nicht im Datensatz;

Alle, die zwischen 17 Uhr und 22 Uhr nicht zuhause sind, weil sie z.B. Schicht arbeiten oder in einer Kneipe sitzen, sind nicht im Datensatz;

Alle, die zwischen 17 Uhr und 22 Uhr nicht ans Telefon gehen, weil sie sich beim Abendessen oder bei was auch immer nicht stören lassen wollen, sind nicht im Datensatz;

Wie man es dreht und wendet, der Datensatz ist nicht repräsentativ, denn nicht alle Elemente der Grundgesamtheit haben dieselbe Wahrscheinlichkeit, an der Befragung teilzunehmen (das wäre zu einer anderen Uhrzeit nicht anders).

Und die genannten, sind nicht die einzigen systematischen Ausfälle:

Wer im Krankenhaus liegt, der fällt aus.

Wer im Pflegeheim ist, der fällt aus.

Wer in Urlaub ist, der fällt aus.

Wer obdachlos ist, der fällt aus.

Wer stumm ist, der fällt aus.

Wer keine Lust hat, an der Umfrage teilzunehmen, fällt aus.

Wer gehörlos ist, der fällt aus.

Wer entmündigt wurde, der fällt aus.

Wer im Gefängnis sitzt, der fällt aus.

Bei wem die Telekom das Telefon gesperrt hat, weil er seine letzten beiden Rechnungen nicht bezahlt hat, der fällt aus.

Das sollte eigentlich ausreichen, um die Repräsentativität ein für alle Mal in das Reich der Mythologie zu entlassen.

Wie wir schon einmal festgestellt haben, ist es das aber leider nicht. Die Lust an einen Mythos zu glauben, ist einfach größer als die Vernunft, von einem liebgewonnenen Mythos Abschied zu nehmen.

Umfrageinstitute wissen in der Regel, dass die Daten, die sie erheben, nicht repräsentativ sind. Deshalb bessern sie nach.

Wer jemals einen Datensatz zu Gesicht bekommen hat, der eine repräsentative Stichprobe darstellen soll, der wird die Phalanx der Gewichtungsvariablen kennen, die zu Beginn des Datensatzes abgelegt ist.

Diese Gewichte dienen abermals dazu, die Repräsentativität herzustellen, die man doch angeblich bereits durch die angebliche Zufallsauswahl hergestellt hat. Hat man aber nicht, wie die Existenz dieser Gewichte belegt, womit wir wieder bei den eingangs gestellten Fragen sind:

Woraufhin soll eine Auswahl von Befragten repräsentativ sein?

Was sind die Merkmale zur Herstellung von Repräsentativität?

Was sind die Merkmale, die einen Deutschen ausreichend beschreiben?

Umfrageforscher gehören nicht zu den Einfallsreichen unter den Forschern, entsprechend gibt es keine Gewichtungsmerkmale wie Lebensstil, Augenfarbe, Schuhgröße, Bierverbrauch oder Body-Mass-Index. Nein, zur repräsentativen Beschreibung der Deutschen reicht es nach Ansicht der Repräsentativitäts-Alchemisten aus, sie nach Alter, Geschlecht und zuweilen Wohnort zu differenzieren – was Hohn und Spott für alles ist, was die empirische Sozialforschung in den letzten Jahrzehnten herausgefunden hat.

21,5% der Deutschen sind über 65 Jahre alt. Sind im Datensatz nur 16,5% über 65 Jahre alt, so werden die über 65jährigen mit dem Faktor 1,3 multipliziert, um dem Datensatz den Anschein der Repräsentativität zu geben. Das Durchschnittsalter der männlichen Deutschen ist 45,4 Jahre, das der weiblichen Deutschen 47,5 Jahre. Ist das Durchschnittsalter der männlichen Deutschen im Datensatz 55,4, dann werden sie durch Gewichtung mit dem Faktor 0,82 entsprechend verjüngt, sind die weiblichen Deutschen im Datensatz im Durchschnitt 35,4 Jahre alt, dann werden sie um den Faktor 1,3 gealtert.

Repräsentativität ist also nichts anderes als eine nicht haltbare Behauptung über die Auswahl der Befragten ergänzt um Rechentricks, die aus einer nicht repräsentativen Stichprobe in der Weise eine repräsentative Stichprobe machen sollen, wie Alchemisten aus Stroh Gold gemacht haben.

Wenn aber Repräsentativität ein Mythos ist, dann gibt es nur eine sinnvolle Verwendung für Befragungen: ein theoriegeleitetes Vorgehen, wie wir es vorschlagen und anwenden.

SurveyNet

Die Befragungsseite von ScienceFiles

Mythos der Repräsentativität