Stichprobe und Sampling in der empirischen Sozialforschung – Definition & Beispiele

Was ist eine Stichprobe?

In der empirischen Sozialforschung interessiert man sich häufig für sehr große Personengruppen oder soziale Einheiten. Diese Gesamtheit aller relevanten Fälle wird als GrundgesamtheitDie Gesamtheit aller Personen oder Objekte, über die in einer wissenschaftlichen Untersuchung Aussagen getroffen werden sollen. (Population) bezeichnet. Beispiele für Grundgesamtheiten sind etwa alle Wahlberechtigten in Deutschland, alle Studierenden einer Hochschule oder alle Jugendlichen einer bestimmten Altersgruppe.

In vielen Fällen ist es jedoch nicht möglich, alle Mitglieder einer Grundgesamtheit zu untersuchen. Eine vollständige Befragung oder Beobachtung aller Fälle wird als Vollerhebung bezeichnet. Vollerhebungen sind meist sehr aufwendig, teuer oder organisatorisch kaum durchführbar.

Stattdessen wird in der empirischen Sozialforschung in der Regel nur ein Teil der Grundgesamtheit untersucht. Dieser Teil wird als Stichprobe bezeichnet. Ziel ist es, anhand der Untersuchung einer relativ kleinen GruppeEine Gruppe ist eine soziale Einheit von mindestens zwei bzw. drei Personen, die durch gemeinsame Interaktionen, Ziele oder Zugehörigkeitsgefühle verbunden sind. Aussagen über die gesamte Grundgesamtheit treffen zu können.

Damit dies möglich ist, muss die Stichprobe möglichst so ausgewählt werden, dass sie die StrukturStruktur bezeichnet das relativ stabile Gefüge von Beziehungen, Regeln und Positionen, das soziale Prozesse, Handlungen und Bedeutungen ordnet. der Grundgesamtheit angemessen widerspiegelt.

Grundgesamtheit und Untersuchungseinheiten

Bei der Planung einer empirischen Studie muss zunächst festgelegt werden, auf welche Grundgesamtheit sich die Untersuchung bezieht. Gleichzeitig muss bestimmt werden, was genau die Untersuchungseinheiten sind.

Untersuchungseinheiten können beispielsweise sein:

Personen (z. B. Studierende oder Wahlberechtigte)
Organisationen (z. B. Unternehmen oder Behörden)
Ereignisse (z. B. Straftaten)
Dokumente oder Texte (z. B. Zeitungsartikel oder Liedtexte)

Die Zahl der tatsächlich untersuchten Fälle wird als Stichprobenumfang bezeichnet.

Ein Beispiel:

Grundgesamtheit: alle Studierenden einer Hochschule
Untersuchungseinheit: einzelne Studierende
Stichprobe: 500 befragte Studierende

Eine präzise Definition der Grundgesamtheit ist entscheidend, da sich nur auf diese Population die späteren Aussagen der Studie beziehen können.

Stichprobenrahmen (Sampling Frame)

Damit aus einer Grundgesamtheit eine Stichprobe gezogen werden kann, muss zunächst festgelegt werden, aus welcher konkreten Liste oder Struktur die Auswahl erfolgt. Diese Grundlage wird als Stichprobenrahmen bezeichnet.

Ein Stichprobenrahmen kann beispielsweise sein:

ein Melderegister
eine Liste aller Studierenden einer Hochschule
ein Verzeichnis von Unternehmen
eine Datenbank von Dokumenten oder Texten

Probleme entstehen dann, wenn der Stichprobenrahmen die Grundgesamtheit nur unvollständig abbildet. In diesem Fall können bestimmte Gruppen systematisch ausgeschlossen werden.

Repräsentativität und Stichprobenfehler

Wann ist eine Stichprobe repräsentativ?

Eine Stichprobe gilt als repräsentativ, wenn sie die wichtigsten Merkmale der Grundgesamtheit möglichst realitätsnah abbildet. Nur dann können aus den Ergebnissen der Stichprobe Rückschlüsse auf die gesamte Population gezogen werden.

Für eine repräsentative Stichprobe müssen mehrere Voraussetzungen erfüllt sein:

Zufällige Auswahl: Jedes Element der Grundgesamtheit sollte grundsätzlich die gleiche Chance haben, in die Stichprobe aufgenommen zu werden.
Ausreichende Stichprobengröße: Je größer eine Stichprobe ist, desto geringer fällt der statistische Stichprobenfehler aus.
Abbildung zentraler Merkmale: Wichtige Strukturmerkmale der Population (z. B. Alter, Geschlecht, Bildung oder Region) sollten in der Stichprobe ähnlich verteilt sein.
Hohe Ausschöpfungsquote: Wenn bestimmte Gruppen systematisch nicht an einer Befragung teilnehmen, kann dies zu Verzerrungen führen (Non-Response-Bias).

Wichtig: Repräsentativität bedeutet nicht, dass eine Stichprobe die Grundgesamtheit perfekt widerspiegelt. Vielmehr geht es darum, dass mögliche Abweichungen statistisch kontrolliert und abgeschätzt werden können. Auch sehr große Stichproben sind nicht automatisch repräsentativ, wenn die Auswahl systematisch verzerrt ist.

Eine der bekanntesten repräsentativen Befragungen in Deutschland ist die sogenannte Sonntagsfrage, also die Frage: „Wen würden Sie wählen, wenn am kommenden Sonntag Bundestagswahl wäre?“.

Die Grundgesamtheit besteht in diesem Fall aus allen Wahlberechtigten in Deutschland – also aus über 60 Millionen Personen. Da eine Befragung aller Wahlberechtigten außerhalb einer tatsächlichen Wahl nicht realisierbar wäre, wird stattdessen eine Stichprobe von wenigen Tausend Personen befragt.

Eine Stichprobe gilt als repräsentativ, wenn wichtige Merkmale der Grundgesamtheit in der Stichprobe möglichst ähnlich verteilt sind. Dazu zählen beispielsweise:

Geschlecht
Alter
Bildungsgrad
Wohnort
Migrationshintergrund

Nur wenn diese Merkmale angemessen berücksichtigt werden, können aus der Stichprobe verlässliche Rückschlüsse auf die gesamte Bevölkerung gezogen werden.

Ein einfaches Beispiel für Stichprobenfehler

Repräsentativität lässt sich mit einem einfachen Gedankenexperiment verdeutlichen.

Stichprobe und Grundgesamtheit – Beispiel für Sampling in der empirischen Sozialforschung — Voraussetzung für Repräsentativität ist die richtige Auswahl (Sampling) der untersuchten Stichprobe.

Angenommen, sich in einem undurchsichtigen Gefäß befinden sich 100 Kugeln:

50 weiße Kugeln
50 schwarze Kugeln

Diese 100 Kugeln bilden die Grundgesamtheit.

Nun soll die Verteilung der Farben ermittelt werden, ohne alle Kugeln zu betrachten. Stattdessen wird eine Zufallsstichprobe von 10 Kugeln gezogen.

Im Idealfall würden sich unter den gezogenen Kugeln fünf weiße und fünf schwarze befinden. In der Praxis ist dies jedoch unwahrscheinlich. Vielleicht enthält die Stichprobe sechs weiße und vier schwarze Kugeln. Diese Abweichung bezeichnet man als Stichprobenfehler.

Wenn die Kugeln wieder in das Gefäß zurückgelegt und mehrfach neue Stichproben gezogen werden, nähert sich der Durchschnitt der Ergebnisse immer stärker der tatsächlichen Verteilung der Grundgesamtheit an.

Dieses Beispiel verdeutlicht zwei grundlegende Prinzipien:

Je größer eine Stichprobe ist, desto genauer bildet sie die Struktur der Grundgesamtheit ab.
Stichproben enthalten fast immer gewisse Abweichungen – ein Stichprobenfehler ist daher normal und unvermeidbar.

In den Sozialwissenschaften wird deshalb häufig mit einer Irrtumswahrscheinlichkeit von 5 % (Signifikanzniveau p = 0,05) gearbeitet.

Typische Missverständnisse über repräsentative Umfragen

Im Alltag wird der Begriff repräsentativ häufig missverständlich verwendet. Nicht jede große oder öffentlich sichtbare Umfrage ist automatisch repräsentativ.

Typische Beispiele für nicht repräsentative Umfragen sind:

Online-Abstimmungen auf Nachrichtenportalen oder Social-Media-Plattformen
Instagram- oder Twitter-Umfragen, an denen nur die eigenen Follower teilnehmen
Leserbefragungen von Zeitungen oder Websites
freiwillige Onlinebefragungen, bei denen Teilnehmer sich selbst zur Teilnahme entscheiden

Das Problem solcher Umfragen besteht darin, dass die Teilnahme nicht zufällig erfolgt. Stattdessen beteiligen sich vor allem Personen, die sich besonders stark für ein Thema interessieren oder eine bestimmte Meinung vertreten. Man spricht in diesem Zusammenhang von Selbstselektion.

Die Ergebnisse solcher Umfragen können daher interessante Stimmungsbilder liefern, erlauben aber in der Regel keine verlässlichen Aussagen über die gesamte Bevölkerung.

Gewichtung von Stichproben

In vielen empirischen Studien werden Stichproben nach der Datenerhebung statistisch gewichtet. Dabei werden bestimmte Gruppen in der Stichprobe stärker oder schwächer berücksichtigt, um bekannte Abweichungen von der Struktur der Grundgesamtheit auszugleichen.

Wenn beispielsweise junge Menschen in einer Stichprobe unterrepräsentiert sind, können ihre Antworten stärker gewichtet werden. Auf diese Weise lässt sich die Vergleichbarkeit mit der Grundgesamtheit verbessern.

Gewichtungsverfahren können jedoch keine grundlegenden Probleme der Stichprobenziehung vollständig korrigieren.

Arten von Stichproben

Grundsätzlich lassen sich zwei große Gruppen von Stichprobenverfahren unterscheiden: Zufallsstichproben und nicht-zufällige Stichproben.

Zufallsstichproben (Probability Sampling)

Bei Zufallsstichproben hat jedes Element der Grundgesamtheit eine bekannte Wahrscheinlichkeit, in die Stichprobe aufgenommen zu werden. Nur auf dieser Grundlage sind statistische Verallgemeinerungen auf die gesamte Population möglich.

Zu den wichtigsten Formen gehören:

Einfache Zufallsstichprobe: Alle Elemente der Grundgesamtheit haben die gleiche Auswahlwahrscheinlichkeit.
Geschichtete Stichprobe: Die Grundgesamtheit wird zunächst in Teilgruppen (Schichten) unterteilt, aus denen anschließend Stichproben gezogen werden.
Klumpenstichprobe: Es werden zunächst größere Einheiten (z. B. Schulen oder Regionen) ausgewählt und anschließend die darin enthaltenen Fälle untersucht.
Mehrstufige Stichprobe: Mehrere Auswahlverfahren werden miteinander kombiniert.

Nicht-zufällige Stichproben

In vielen Studien ist eine Zufallsstichprobe praktisch nicht realisierbar. In solchen Fällen werden häufig nicht-zufällige Stichprobenverfahren verwendet.

Beispiele sind:

Gelegenheitsstichprobe: Es werden Personen befragt, die leicht erreichbar sind.
Quotenstichprobe: Bestimmte Merkmale (z. B. Geschlecht oder Alter) werden proportional berücksichtigt.
Schneeballstichprobe: Befragte Personen vermitteln weitere Teilnehmer.
Expertenstichprobe: Es werden gezielt Personen mit besonderem Fachwissen ausgewählt.

Diese Verfahren sind in der Praxis weit verbreitet, erlauben jedoch nur eingeschränkt statistische Verallgemeinerungen.

Die relevantesten Stichproben im Vergleich

Stichprobenart	Typische Anwendung
Zufallsstichprobe	repräsentative Bevölkerungsumfragen
Quotenstichprobe	Marktforschung
Schneeballstichprobe	schwer erreichbare Gruppen
Expertenstichprobe	qualitative Interviews

Stichprobenfehler und Verzerrungen

Auch bei sorgfältig gezogenen Stichproben können Verzerrungen auftreten. Man unterscheidet insbesondere zwischen zufälligen Stichprobenfehlern und systematischen Verzerrungen.

Zu den häufigsten Problemen gehören:

Stichprobenfehler: zufällige Abweichungen zwischen Stichprobe und Grundgesamtheit
Non-Response-Bias: bestimmte Gruppen nehmen seltener an einer Befragung teil
Selbstselektion: besonders interessierte Personen beteiligen sich häufiger
Coverage Bias: bestimmte Gruppen werden gar nicht erst erreicht

Eine wichtige Kennzahl ist die sogenannte Ausschöpfungsquote. Sie beschreibt den Anteil der Personen in der Stichprobe, die tatsächlich an einer Befragung teilnehmen.

Eine niedrige Ausschöpfungsquote kann problematisch sein, wenn bestimmte Gruppen systematisch unterrepräsentiert sind.

Erhebungsarten und ihre Auswirkungen auf Stichproben

Die Auswahl einer Stichprobe ist eng mit der Frage verbunden, wie die Daten erhoben werden. Gerade im Rahmen der standardisierten Befragung beeinflusst die gewählte Erhebungsart maßgeblich, welche Personen erreicht werden können und wie hoch die Beteiligung an einer Studie ausfällt.

Zu den wichtigsten Erhebungsformen gehören:

Face-to-Face-Befragungen

Bei persönlichen Interviews werden Befragte direkt von Interviewern aufgesucht und befragt. Diese Methode wird häufig in großen sozialwissenschaftlichen Studien verwendet.

Typische Merkmale:

hohe Ausschöpfungsquoten
gute Kontrollmöglichkeiten für Interviewer
aufwendig und kostenintensiv

Ein möglicher Nachteil besteht darin, dass Befragte in persönlichen Interviews eher zu sozial erwünschten Antworten neigen können. Gerade bei sensiblen Themen – etwa DelinquenzDelinquenz beschreibt die Neigung, strafbare Handlungen zu begehen., Drogenkonsum oder politisch kontroversen Einstellungen – kann dies die Aussagekraft der erhobenen Daten beeinträchtigen.

Telefonbefragungen

Telefonische Interviews waren lange Zeit eine der wichtigsten Methoden der Umfrageforschung, etwa bei politischen Meinungsumfragen.

Typische Merkmale:

relativ schnelle Datenerhebung
geringere Kosten als persönliche Interviews
zunehmende Probleme durch sinkende Teilnahmebereitschaft

Zudem können bestimmte Bevölkerungsgruppen schwer erreichbar sein, beispielsweise Personen ohne Festnetzanschluss.

Postalische Befragungen

Bei schriftlichen Befragungen werden Fragebögen per Post versendet und von den Teilnehmern eigenständig ausgefüllt.

Typische Merkmale:

vergleichsweise kostengünstig
keine Interviewereinwirkung
oft niedrige Rücklaufquoten

Eine geringe Ausschöpfungsquote kann zu Verzerrungen führen, wenn bestimmte Gruppen seltener antworten.

Onlinebefragungen

Onlinebefragungen haben in den letzten Jahren stark an Bedeutung gewonnen. Fragebögen werden hierbei über das Internet bereitgestellt und von den Teilnehmern digital ausgefüllt.

Typische Merkmale:

sehr kostengünstig
schnelle Datenerhebung
automatische Datenspeicherung und -auswertung

Allerdings können Onlinebefragungen problematisch sein, wenn nur bestimmte Gruppen Zugang zur Studie haben oder wenn Teilnehmer sich selbst zur Teilnahme entscheiden. In solchen Fällen kann es zu Selbstselektionsverzerrungen kommen.

Mixed-Mode-Befragungen

Viele moderne Studien kombinieren mehrere Erhebungsformen, beispielsweise Online- und Telefonbefragungen. Man spricht dann von sogenannten Mixed-Mode-Designs.

Der Vorteil solcher Designs besteht darin, unterschiedliche Bevölkerungsgruppen besser erreichen zu können und damit mögliche Verzerrungen zu reduzieren.

Stichprobengröße und statistische Genauigkeit

Die Größe einer Stichprobe beeinflusst maßgeblich die Genauigkeit der Ergebnisse. Grundsätzlich gilt: Je größer eine Stichprobe ist, desto geringer fällt der statistische Fehler aus.

Allerdings steigt mit der Stichprobengröße auch der organisatorische und finanzielle Aufwand einer Untersuchung. In der Praxis muss daher stets ein Kompromiss zwischen Genauigkeit und Ressourcen gefunden werden.

Statistische Verfahren ermöglichen es, für Stichproben sogenannte Vertrauensintervalle zu berechnen. Sie geben an, in welchem Bereich der tatsächliche Wert in der Grundgesamtheit mit hoher Wahrscheinlichkeit liegt.
Die Aussagekraft einer Stichprobe hängt allerdings nicht nur von ihrer Größe oder Auswahl ab, sondern auch davon, wie die untersuchten Konzepte operationalisiert wurden.

Beispiel aus der Forschung

Stichproben werden nicht nur bei Befragungen von Personen verwendet. Auch in anderen Forschungsdesigns müssen geeignete Auswahlverfahren entwickelt werden.

Ein Beispiel hierfür ist die Studie Rap und Polizei. In dieser Untersuchung wurden nicht Personen befragt, sondern Rap-Liedtexte analysiert.

Die Grundgesamtheit bestand aus einer großen Zahl deutschsprachiger Rap-Songs. Da eine Analyse aller verfügbaren Texte nicht möglich gewesen wäre, wurde eine Stichprobe von Liedern ausgewählt, die anschließend systematisch ausgewertet wurden.

Dieses Beispiel zeigt, dass Sampling nicht nur bei Personenbefragungen relevant ist, sondern auch bei der Analyse von Texten, Ereignissen oder Organisationen.

Zusammenfassung

Stichproben sind ein zentrales Instrument empirischer Sozialforschung. Da vollständige Erhebungen meist nicht möglich sind, werden nur ausgewählte Teile einer Grundgesamtheit untersucht.

Ziel ist es, eine Stichprobe zu ziehen, die die Struktur der Grundgesamtheit möglichst gut abbildet. Zufallsstichproben ermöglichen statistische Verallgemeinerungen, während nicht-zufällige Stichproben vor allem in explorativen oder qualitativen Studien verwendet werden.

Da jede Stichprobe gewisse Abweichungen von der Grundgesamtheit enthalten kann, müssen Stichprobenfehler und mögliche Verzerrungen bei der Interpretation der Ergebnisse stets berücksichtigt werden.

Stichprobe (Sampling) in der empirischen Sozialforschung

Was ist eine Stichprobe?