DATENQUALITÄT
Auswertungen und daraus abgeleitete Erkenntnisse können immer nur so gut sein, so gut die Datengrundlage dafür ist. Erhebungen bieten eine breite Möglichkeit, Fehler in einem Rohdatensatz zu haben. Generell kann man Stichprobenfehler, Verschlüsselungsfehler und Verzerrungsfehler unterscheiden. Der Stichprobenfehler ist ein statistisches Maß aufgrund der Tatsache, dass nicht die gesamte Grundgesamtheit in die Erhebung aufgenommen werden kann, sondern nur eine Stichprobe gezogen wurde. Dieser Fehler ist im Regelfall nicht vermeidbar. Der Verschlüsselungsfehler kann bei einem Übertrag der Befragungsergebnisse in eine elektronische Form entstehen. Er ist jedoch über geeignete Kontrollen vermeidbar bzw. behebbar.
Systematisch können Verzerrungsfehler wie folgt zusammengefasst werden:
- Fehler aus der Stichprobenziehung (Stichprobenziehungsfehler)
- Fehler durch Nichteinschließen oder Ausschließen ein oder mehrer Gruppen (Coverage-Fehler)
- Fehler durch Nichtantworter (Nichtantwort-Fehler, Non-Response)
- Fehler bei der Implementierung und Durchführung der Befragung (Befragungsfehler)
Folgende Verzerrungsfehler kommen am häufigsten vor, können die Ergebnisse sehr stark beeinflussen und sollten so gering wie möglich gehalten weden:
Interviewer-Einfluss / Interviewer-Bias (Befragungsfehler):
Es kann einen Einfluss auf das Ergebnis geben, je nachdem, wer z.B. ein Interview oder eine Messung durchgeführt hat. Hierbei spielen Aspekte wie Geschlecht, Alter, Genauigkeit, Gewissenhaftigkeit etc. oft eine sehr große Rolle. Eine möglichst kleine Abhängigkeit des Erhebungsgegenstands von signifikanten Merkmalen des Erhebungspersonals ist hierbei anzustreben.
Coverage-Problem:
In einer idealen (Zufalls)stichprobe, sollte jede Person (Erhebungseinheit) die gleiche Chance auf Ziehung haben. Viele Register einer Grundgesamtheit sind (systematisch) unvollständig: Nicht jede Person hat Internetzugang für eine Online-Befragung, nicht jede Person ist in einem Telefonregister eingetragen etc. Wenn das Antwortverhalten der nicht erreichbaren Personen nicht dem der erreichbaren Personen entspricht, können Coverarge-Probleme Ergebnisse stark verzerren.
Nichtantwort der Erhebungseinheit / Unit-Non-Response:
Dieser Fehler stellt eine Quelle der Verzerrung dar, in der das Verhalten der Antworter nicht gleich dem der Nichtantworter sein muss. Dieser Effekt ist stark abhängig von dem Typ der Erhebung und zentral von der Antwortrate. Vor allem aus diesem Grund muss die Antwortrate einer Erhebung immer größer als 50% sein - umso höher, umso besser. Erhebungen mit einer sehr geringen Antwortrate erreichen bei ausreichender Stichprobengröße oft statistisch sehr genaue, jedoch völlig falsche Ergebnisse.
Nichtantwort auf Teile einer Erhebung / Item-Non-Response:
Unter Fehlen von Erhebungsmerkmalen wird das Fehlen z.B. einzelner Antworten oder Informationen in einer Befragung verstanden. Diese Daten könnten als „ignorierbar“ gewertet werden, wenn sie rein zufällig sind und damit keine Auswirkungen auf das Ergebnis der Befragung haben. In diesem Fall beeinflusst das Fehlen von Erhebungsmerkmalen nur die Wirtschaftlichkeit einer Befragung. Es ist schwierig abzuschätzen, welchen Einfluss dieses Fehlen von Erhebungsmerkmalen auf das Ergebnis der Erhebung haben kann. Im Folgenden sind mögliche Gründe für das Fehlen von Erhebungsmerkmalen angegeben:
- Vergessen, Nichterinnern, ...
- Verständnisprobleme im Rahmen der Erhebung
- Überforderung der Befragten
- Andere persönliche Gründe
- Vorsätzliche Falschantworten um z.B. einen guten Eindruck zu hinterlassen
Es ist wichtig zu sehen, dass vor allem Einflussgrößen wie das Fragebogendesign oder der Interviewer selbst für das Fehlen von Erhebungsmerkmalen relevant sind. Es können eine Reihe von Maßnahmen im Rahmen einer Erhebung gesetzt werden, die helfen, das Ausmaß dieser Art der Nichtantwort zu minimieren:
- Verbesserung des Layouts von selbstadministrierten Fragebögen
- Bessere Schulung der Interviewer
- Sorgfältige Pre-Tests
- Sorgfältiges Umgehen mit erhobenen Daten
- Reduzierung der Erinnerungsbarrieren („memory joggers“)
- Reduzierung von Verständnisproblemen
- Reduzierung des subjektiven Empfindens des Befragten, dass in seine Privatsphäre eingedrungen wird.
Im Rahmen der Durchführung einer Erhebung muss der Reduzierung des Item-Non-Response Effekts höchste Aufmerksamkeit geschenkt werden. Da jedoch dieser Effekt nie ausgeschlossen werden kann, sind folgende zwei Schritte unerlässlich:
- Analyse des Fehlens-von-Erhebungsmerkmalen-Effekts und gegebenenfalls
- die Generierung der fehlenden Daten durch Datenimputation.