Jan 22

Wie Meinungsforschungsinstitute Repräsentativität herbeirechnen wollen

Manche kennen sicher die Geschichte des Ökonomen, der auf einer einsamen Insel strandet. Mit ihm strandet eine Schiffsladung Bohnen in Tomatensoße, in Dosen. Der Ökonom hat keinen Dosenöffner und geht das hartnäckige Problem des Öffnens von Dosen auf betont ökonomische Art an: Nehmen wir an, wir hätten einen Dosenöffner.

Im Gegensatz zu so manchem Leichtgläubigen, der noch an die Repräsentativität glaubt, wird unser Ökonom recht schnell an die Grenzen seiner Modellwelt stoßen, und die Annahme, er habe einen Dosenöffner, durch die Dosenbearbeitung mit verfügbaren Instrumenten ersetzen.

Schnell hill esser neuDas unterscheidet diejenige, die daran glauben, man könne eine repräsentative Stichprobe der Gesamtbevölkerung ziehen und die Ergebnisse der Stichprobe dann wieder auf die Bevölkerung hochrechnen, vom Ökonomen: Sie werden nicht mit dem Problem ihrer abstrusen Annahme konfrontiert, denn es gibt keine Möglichkeit, die Behauptung, der vorliegende Datensatz sei repräsentativ für die Bevölkerung zu prüfen.

Aber es gibt eine Vielzahl von Argumenten, mit denen man zeigen kann, dass die theoretisch vielleicht mögliche Ziehung einer repräsentativen Stichprobe in der Realität und an der Realität scheitern muss. Wir haben die entsprechenden Argumente bereits in einem früheren Post zusammengestellt.

Die behauptete Repräsentativität von Befragungen durch Meinungsforschungsinstitute hat in heutigen Gesellschaften häufig den Status des Legitimationsbeschaffers für Regierung, Parteien oder sonstige Interessenverbände. Sie lassen Befragungen durchführen und präsentieren deren Ergebnisse dann stolz als repräsentativ für die Bevölkerung und Unterstützung ihrer Politik oder beabsichtigten Politik.

Weil Meinungsumfragen diesen Status des Legitimationsbeschaffers innehaben, ist die Behauptung, eine Stichprobe von 1000 Befragten sei repräsentativ für die Bevölkerung, zu einem politischen Machtmittel geworden. Die Behauptung der Repräsentativität entlastet Politiker vom Kontakt mit Wählern und verschafft Umfrageinstituten eine stetig sprudelnde Quelle, und ganz nebenbei kann diese Quelle fast nach Belieben manipuliert werden.

Bei Meinungsforschungsinstituten ist es bekannt, dass die Stichproben, die sie ziehen, verzerrt sind, also nicht repräsentativ, wie immer behauptet wird. Deshalb bessern die entsprechenden Institute nach, durch die sogenannte Gewichtung der Daten.

Wer z.B. den ARD-Deutschlandtrend von Infratest dimap betrachtet, dem werden ausschließlich Prozentwerte dargeboten. 44% sehen eher Nachteile als Folge der Zuwanderung nach Deutschland. Gleiches findet sich bei Forsa: “Im stern-RTL-Wahltrend gewinnen CDU/CSU im Vergleich zur Vorwoche einen Prozentpunkt hinzu und kommen auf 39 Prozent.”

Wie viele Befragte diese 39% sind, die angeben, die CDU/CSU wählen zu wollen, wie viele Befragte sich hinter den 44% verstecken, die mehr Nachteile als Folge der Zuwanderung sehen, das erfährt man von keinem Umfrageinstitut und mit gutem Grund, denn würden die entsprechenden Angaben gemacht, die Leser würden sich wundern, sehr wundern. Und dass Sie sich wundern würden, liegt an den tatsächlichen Fallzahlen und an der Gewichtung, die aus tatsächlichen Befragten, repräsentative Befragte machen soll.

Um zu sehen, wie über Gewichtung nicht nur die Daten auf repräsentativ geschminkt werden sollen, sondern auch die Möglichkeit der Manipulation gegeben ist, erklären wir im folgenden die Funktionsweise der Gewichtung.

Nehmen wir an, ein Umfrageinstitut zieht zufällig eine Stichprobe und fragt nach der Partei, die ein Befragter bei einer letzten Wahl gewählt hat und nach der Partei, die er bei der nächsten Wahl wählen will. Das Ergebnis dieser Befragung ist in der folgenden Tabelle dargestellt.

Partei Wahlergebnis Stichprobe Wahlabsicht Stichprobe
CDU 25% 20%
Grüne 20% 15%
SPD 20% 15%
AfD 15% 25%

Tatsächlich hat die letzte Bundestagswahl eine andere Verteilung erbracht, als die Frage nach der letzten Wahlentscheidung in der Stichprobe unseres Meinungsforschungsinstituts. Mit anderen Worten, es ist nicht gelungen, das Wahlergebnis der letzten Wahl in der Stichprobe zu replizieren. Die Stichprobe ist also verzerrt und entsprechend nicht repräsentativ. Die nächste Tabelle zeigt das noch einmal:

Partei Tatsächliches Wahlergebnis Wahlergebnis Stichprobe Wahlabsicht Stichprobe
CDU 39% 25% 20%
Grüne 24% 20% 15%
SPD 23% 20% 15%
AfD 5% 15% 25%

Die offensichtliche Abweichung zwischen dem tatsächlichen Ergebnis, das die entsprechende Partei bei der letzten Wahl erreicht hat, und dem Ergebnis, das in der Stichprobe ausgewiesen wird, ist erheblich und offensichtlich eine Abweichung von der Realität, die man doch mit der angeblich repräsentativen Stichprobe abbilden will.

Was tun?

Gewichten!

Wenn die Daten, die man hat, von der Realität abweichen, dann muss man sie eben an die Realität anpassen, sie manipulieren. Das geht wie in der folgenden Tabelle dargestellt, in dem das tatsächliche Wahlergebnis, zum Ergebnis der letzten Wahl, wie es sich in der Stichprobe darstellt, ins Verhältnis gesetzt wird.

Partei Tatsächliches Wahlergebnis Wahlergebnis Stichprobe Gewichtungs-faktor Wahlabsicht Stichprobe
CDU 39% 25% 1,56 20%
Grüne 24% 20% 1,2 15%
SPD 23% 20% 1,15 15%
AfD 5% 15% 0,3 25%

Gemessen am tatsächlichen Wahlergebnis, ist die CDU in der Stichprobe um den Faktor 1,56 unterrepräsentiert, die Grünen um den Faktor 1,2, die SPD um den Faktor 1,15 und die AfD um den Faktor 0,33. Mit anderen Worten: Jeder Befragte, der angibt, bei der letzten Wahl die CDU gewählt zu haben, ist 1,56 Befragte wert, jeder Befragte, der angibt, Grüne gewählt zu haben, 1,2 Befragte, jeder Befragte, der angibt, SPD gewählt zu haben, 1,15 Befragte und jeder Befragte, der angibt, AfD gewählt zu haben, 0,3 Befragte.

Nun muss natürlich noch die Frage nach der Wahlabsicht, die dann als Wahlbarometer in Medien zu finden sein wird, angepasst, also mit dem Gewichtungsfaktor gewichtet werden. Das Ergebnis findet sich in der nächsten Tabelle.

Partei Tatsächliches Wahlergebnis Wahlergebnis Stichprobe Gewichtungs-faktor Wahlabsicht Stichprobe Wahlabsicht gewichtet
CDU 39% 25% 1,56 20% 31%
Grüne 24% 20% 1,2 15% 18%
SPD 23% 20% 1,15 15% 17%
AfD 5% 15% 0,3 25% 8%

Eh voila. In der letzten Spalte findet sich nun das gewichtet Endergebnis, wie es das Meinungsforschungsinstitut an die Öffentlichkeit geben wird, mit der Behauptung, es sei ein Ergebnis, das auf Grundlage einer repräsentativen Stichprobe gewonnen wurde.

Und warum findet man keine Angaben zur Anzahl der Befragten, die z.B. CDU oder AfD gewählt haben. Die Antwort lautet: Wegen der Gewichtung, denn die Gewichtung hat Auswirkungen auf die Anzahl der Befragten.

Partei Anzahl tatsächlich Befragter Anzahl gewichteter Befragter
CDU 250 390
Grüne 200 240
SPD 200 230
AfD 150 50

Wie man deutlich sieht, verändert die Gewichtung die Anzahl derer, die als Wähler der Parteien ausgewiesen werden. Mit anderen Worten: Gewichtung verfälscht die tatsächlichen Ergebnisse, macht manche Wähler mehrwertig, andere minderwertig und würde, wiese man sie aus, genau dieses offenkundig werden lassen. Das will natürlich niemand, wäre doch damit auch deutlich, welcher Hokuspokus sich hinter der angeblichen Repräsentativität verbirgt.

Die Tatsache, dass das Ergebnis, das als Endergebnis an die Öffentlichkeit gegeben wird, vom Gewichtungsfaktor abhängt, lässt sich nutzen, um das Ergebnis entsprechend bestimmter Interessen zu gewichten. Ein halbes Prozent hier, ein halbes Prozent da, oder die Einrechnung von 2% Fehlerwahrscheinlichkeit, die man als Meinungsforschungsinstitut immer für sich in Anspruch nehmen kann, und das Ergebnis sieht, aus, wie in der nächsten Tabelle dargestellt – wobei die Richtung der Abweichung vermutlich nach dem Motto funktioniert: Wer bezahlt, bestimmt”.

Partei Tatsächliches Wahlergebnis Wahlergebnis Stichprobe Gewichtungs-faktor Wahlabsicht Stichprobe Wahlabsicht gewichtet inkl. bezahlter Fehler
CDU 39% 25% 1,56 20% 31% 30%
Grüne 24% 20% 1,2 15% 18% 19%
SPD 23% 20% 1,15 15% 17% 18%
AfD 5% 15% 0,3 25% 8% 7%

Nun wird es sicher den einen oder anderen geben, der denkt, diese ein/zwei Prozent in der letzten Spalte, die seien vernachlässigbar. Um diesen Irrtum aufzuklären, muss man nur überlegen, wie sich diese ein/zwei Prozent dann auswirken, wenn eine Partei versucht, die 5%-Hürde zu überspringen oder dann, wenn die Regierungsbildung zwischen zwei ideologischen Lagern umstritten ist und die letztliche Entscheidung von einem oder zwei Prozenten mehr oder weniger für die eine oder andere Richtung abhängig ist.

Zudem muss man sich klar machen, dass die meisten repräsentativen Wahrheiten, die verkauft werden sollen, in Form der 44%, die negative Folgen von Zuwanderung sehen, verkauft werden sollen, also in einer Form, die keinerlei Überprüfung zulässt. Die Möglichkeit, über Gewichtung das Zünglein an der politischen Waage spielen zu können, ist insofern nicht zu unterschätzen.

Schließlich gewichten Umfrageinstitute in der Regel auch auf Grundlage sozio-demographischer Variablen, also nach Alter, Einkommen und Bildung. Entsprechend sind die Möglichkeiten, in die eine oder andere Richtung zu beeinflussen, vielfältiger als hier dargestellt.

Wer nun immer noch an die Repräsentativität glaubt, dem ist nicht mehr zu helfen.

Share
Jan 13

Mythos der Repräsentativität

Repräsentativität ist theoretisch möglich, aber praktisch unmöglich.

Warum?

Wir haben die wichtigsten Gründe zusammengestellt.

Beginnen wird mit der Worbedeutung von Repräsentativität. Etwas soll für etwas anderes repräsentativ sein. In der Regel machen 1000 Befragte bei Meinungsforschungsinstituten einen repräsentativen Sample aus, von dem aus Aussagen über die Bevölkerung in Deutschland gemacht werden. 1000 Befragte sollen also für rund 80 Millionen Einwohner repräsentativ sein.

Die Frage, die sich nun aufdrängt lautet: repräsentativ im Hinblick worauf?

Menschen können über eine Vielzahl von Merkmalen beschrieben werden: Schuhgröße, Augenfarbe, Intellekt, Sprachfähigkeit, Haarlänge, Sauberkeit, Nasenlänge, Lebensstil, Einstellung zu Gewalt, zu Flüchtlingen, Laufgeschwindigkeit, Körperfülle, Fitness, Wohnort, Fernsehkonsum, Beeinflussbarkeit, Kaffeeverbrauch, Körpergröße, BMI, Alter, Einkommen, um nur einige zu nennen.

Was sind also die Merkmale, die im Alchemistenlabor der Meinungsforscher genutzt werden, um angeblich Repräsentativität herzustellen?

Zunächst ist es eine Zufallsauswahl, d.h.: Wenn jeder deutsche Bürger dieselbe Chance hat, befragt zu werden, wenn es also für den Arbeiter bei der BASF mit Schuhgröße 45 ebenso wahrscheinlich ist, befragt zu werden, wie für den Bürgermeister von Leipzig, dann soll eine Auswahl repräsentativ sein, egal, ob der Arbeiter in der BASF oder der Bürgermeister von Leipzig dann auch befragt tatsächlich wurde. Was zählt, ist die gleiche Wahrscheinlichkeit, befragt zu werden.

Schnell hill esserDas ist die wohlwollende Definition von Repräsentativität. Eine exakte Definition, die die Problematik, die sich mit Repräsentativität verbindet und regelmäßig dazu führt, dass das Unternehmen “Repräsentatitivität” scheitert, wäre: Eine Stichprobe ist dann ein repräsentatives Abbild einer Grundgesamtheit, wenn alle Merkmale und Merkmalskombinationen, die im Hinblick auf die Fragestellung von Wichtigkeit sind, im selben Anteil vorhanden sind wie in der Grundgesamtheit. Nur dann sind die entsprechenden Merkmale oder Merkmalskombinationen nämlich angemessen repräsentiert. Diese Definition macht einerseits die Problematik von “Repräsentativität” deutlich, denn um die Kriterien von Repräsentativität zu erfüllen, muss vorab bekannt sein, was erst untersucht werden müsste. Andererseits zeigt die Definition, warum der Ausrede über die Zufallsstichprobe für viele Repräsentativitäts-Alchemisten so wichtig ist.

Aber selbst wenn man den Repräsentativitäts-Alchemisten ihre Zufallsauswahl lässt, ergeben sich Probleme, die unüberwindbar sind. So haben wir bereits in der Vergangenheit dargelegt, dass es nicht möglich ist, die Voraussetzungen zu erfüllen, die an eine Zufallsauswahl auch nur der erwachsenen Wohnbevölkerung in Deutschland gestellt werden. Eine Vielzahl von Gründen steht der Auswahl einer repräsentativen Menge von erwachsenen Deutschen per Zufallsauswahl im Wege.

Nehmen wir an, sie wollen eine Telefonumfrage durchführen. Das ist die Umfrageform, die derzeit am häufigsten genutzt wird. Nehmen wir weiter an, Sie haben ein Befragungsinstitut mit einem Telefonpool und rufen abends von 17 Uhr bis 22 Uhr die Personen an, die sie aus dem Telefonbuch zufällig gezogen haben:

  • Alle, die nicht im Telefonbuch stehen, eine Geheimnummer haben, sind nicht im Datensatz;
  • Alle, die zwischen 17 Uhr und 22 Uhr nicht zuhause sind, weil sie z.B. Schicht arbeiten oder in einer Kneipe sitzen, sind nicht im Datensatz;
  • Alle, die zwischen 17 Uhr und 22 Uhr nicht ans Telefon gehen, weil sie sich beim Abendessen oder bei was auch immer nicht stören lassen wollen, sind nicht im Datensatz;

Wie man es dreht und wendet, der Datensatz ist nicht repräsentativ, denn nicht alle Elemente der Grundgesamtheit haben dieselbe Wahrscheinlichkeit, an der Befragung teilzunehmen (das wäre zu einer anderen Uhrzeit nicht anders).

Und die genannten, sind nicht die einzigen systematischen Ausfälle:

  • Wer im Krankenhaus liegt, der fällt aus.
  • Wer im Pflegeheim ist, der fällt aus.
  • Wer in Urlaub ist, der fällt aus.
  • Wer obdachlos ist, der fällt aus.
  • Wer stumm ist, der fällt aus.
  • Wer keine Lust hat, an der Umfrage teilzunehmen, fällt aus.
  • Wer gehörlos ist, der fällt aus.
  • Wer entmündigt wurde, der fällt aus.
  • Wer im Gefängnis sitzt, der fällt aus.
  • Bei wem die Telekom das Telefon gesperrt hat, weil er seine letzten beiden Rechnungen nicht bezahlt hat, der fällt aus.

Das sollte eigentlich ausreichen, um die Repräsentativität ein für alle Mal in das Reich der Mythologie zu entlassen.

Wie wir schon einmal festgestellt haben, ist es das aber leider nicht. Die Lust an einen Mythos zu glauben, ist einfach größer als die Vernunft, von einem liebgewonnenen Mythos Abschied zu nehmen.

Umfrageinstitute wissen in der Regel, dass die Daten, die sie erheben, nicht repräsentativ sind. Deshalb bessern sie nach.

Wer jemals einen Datensatz zu Gesicht bekommen hat, der eine repräsentative Stichprobe darstellen soll, der wird die Phalanx der Gewichtungsvariablen kennen, die zu Beginn des Datensatzes abgelegt ist.

Diese Gewichte dienen abermals dazu, die Repräsentativität herzustellen, die man doch angeblich bereits durch die angebliche Zufallsauswahl hergestellt hat. Hat man aber nicht, wie die Existenz dieser Gewichte belegt, womit wir wieder bei den eingangs gestellten Fragen sind:

Woraufhin soll eine Auswahl von Befragten repräsentativ sein?

Was sind die Merkmale zur Herstellung von Repräsentativität?

Was sind die Merkmale, die einen Deutschen ausreichend beschreiben?

Survey ResearchUmfrageforscher gehören nicht zu den Einfallsreichen unter den Forschern, entsprechend gibt es keine Gewichtungsmerkmale wie Lebensstil, Augenfarbe, Schuhgröße, Bierverbrauch oder Body-Mass-Index. Nein, zur repräsentativen Beschreibung der Deutschen reicht es nach Ansicht der Repräsentativitäts-Alchemisten aus, sie nach Alter, Geschlecht und zuweilen Wohnort zu differenzieren – was Hohn und Spott für alles ist, was die empirische Sozialforschung in den letzten Jahrzehnten herausgefunden hat.

21,5% der Deutschen sind über 65 Jahre alt. Sind im Datensatz nur 16,5% über 65 Jahre alt, so werden die über 65jährigen mit dem Faktor 1,3 multipliziert, um dem Datensatz den Anschein der Repräsentativität zu geben. Das Durchschnittsalter der männlichen Deutschen ist 45,4 Jahre, das der weiblichen Deutschen 47,5 Jahre. Ist das Durchschnittsalter der männlichen Deutschen im Datensatz 55,4, dann werden sie durch Gewichtung mit dem Faktor 0,82 entsprechend verjüngt, sind die weiblichen Deutschen im Datensatz im Durchschnitt 35,4 Jahre alt, dann werden sie um den Faktor 1,3 gealtert.

Repräsentativität ist also nichts anderes als eine nicht haltbare Behauptung über die Auswahl der Befragten ergänzt um Rechentricks, die aus einer nicht repräsentativen Stichprobe in der Weise eine repräsentative Stichprobe machen sollen, wie Alchemisten aus Stroh Gold gemacht haben.

Wenn aber Repräsentativität ein Mythos ist, dann gibt es nur eine sinnvolle Verwendung für Befragungen: ein theoriegeleitetes Vorgehen, wie wir es vorschlagen und anwenden.

Share