Innsbruck (universität) - Ein internationales Forscherteam unter Beteiligung der Universität Innsbruck
hat 21 hochkarätige sozialwissenschaftliche Studien wiederholt. Ihre Ergebnisse zeigen, wie herausfordernd
die Reproduzierbarkeit von Ergebnissen ist und schlagen Lösungen zur Verbesserung der Glaubwürdigkeit
der Forschung vor. Acht der 21 erneut durchgeführten Studien wiesen keinen signifikanten Beleg für die
ursprünglichen Ergebnisse auf. Zudem sind die Effektgrößen der Replikationen um etwa 50 Prozent
kleiner als die der ursprünglichen Studien. Die ForscherInnen sind allerdings zuversichtlich, dass die sich
derzeit wandelnden Normen in Richtung Transparenz und wissenschaftlicher Strenge die Glaubwürdigkeit veröffentlichter
Forschung verbessern werden.
Ein Team von Mitgliedern fünf wirtschafts- und sozialwissenschaftlicher Forschungsgruppen haben aktuell im
Fachjournal Nature Human Behaviour die Ergebnisse der Wiederholung von 21 hochkarätigen sozialwissenschaftlichen
Experimenten veröffentlicht. Darunter befanden sich mit Felix Holzmeister, Jürgen Huber, Michael Kirchler
und Julia Rose auch Forscherinnen und Forscher eines Teams der Universität Innsbruck. Die zu replizierenden
Studien wurden ursprünglich in Science und Nature, zwei der renommiertesten wissenschaftlichen Fachzeitschriften,
publiziert. Ziel der Forscherinnen und Forscher war, jeweils ein zentrales Ergebnis aus jeder in Frage kommenden,
zwischen 2010 und 2015 veröffentlichten Arbeit zu reproduzieren. Um die Aussichten auf erfolgreiche Reproduktion
zu erhöhen und die experimentelle Durchführung der Studien so nah wie möglich an den ursprünglichen
Studien auszurichten, erhielt das Team die Originalmaterialien und Protokolle von fast allen Originalstudien, bevor
die Experimente durchgeführt wurden. Kommentare und Anregungen der Originalautoren wurden in der Umsetzung
berücksichtigt und die finalen Protokolle wurden von fast allen Originalautoren befürwortet.
Vorsicht bei statistischer Signifikanz
Jede der 21 Replikationen wurde vor der Durchführung öffentlich registriert, um den experimentellen
Ablauf sowie die geplante Auswertung der Daten so transparent wie möglich zu gestalten. Die Replikationsstudien
waren derart entworfen, dass sie die ursprünglichen Ergebnisse selbst dann bestätigen würden, wenn
die neuen Effekte nur halb so groß wären wie das ursprüngliche Ergebnis. „Um eine hohe statistische
Trennschärfe zu gewährleisten, war der durchschnittliche Stichprobenumfang der Replikationsstudien etwa
fünfmal größer als der durchschnittliche Stichprobenumfang der Originalstudien“, sagt Felix Holzmeister,
einer der Projektleiter.
Das Forscherteam berichtet, dass 13 der 21 Replikationen (62 %) signifikante Ergebnisse aufzeigen, die mit der
ursprünglichen Hypothese übereinstimmen. Außerdem zeigen die Replikationsstudien im Durchschnitt
Effektgrößen, die etwa 50 % kleiner sind als die der ursprünglichen Studien. „Die Ergebnisse verdeutlichen,
dass statistisch signifikante wissenschaftliche Erkenntnisse mit Vorsicht interpretiert werden sollten, solange
sie nicht unabhängig reproduziert werden konnten. Und das auch dann, wenn sie in den renommiertesten Fachzeitschriften
veröffentlicht werden“, sagt Michael Kirchler, einer der Projektleiter.
Die Weisheit der Vielen
Vor der Wiederholung der Studien richtete das Team Prognosemärkte für andere Forscher ein: Diese
konnten, basierend auf ihrer Einschätzung über die Reproduzierbarkeit der jeweiligen Hypothese, auf die
Replikationsergebnisse wetten und Geld verdienen (oder verlieren). Interessant dabei: Diese Märkte haben sehr
genau vorhergesagt, welche der Studien sich reproduzieren bzw. nicht reproduzieren lassen würden. Für
18 der 21 Wiederholungen wurden die Ergebnisse korrekt vorhergesagt und die Überzeugungen der Marktteilnehmer
waren stark mit den Effektgrößen der Replikationen korreliert. Jürgen Huber, ein weiterer Projektleiter,
dazu: „Die Ergebnisse der Prognosemärkte deuten darauf hin, dass die Händler die Wahrscheinlichkeit einer
erfolgreichen Replikation der Resultate tatsächlich im Voraus einschätzen können.“ Es ist noch nicht
klar, welche Faktoren entscheidend für diese Einschätzungen sind, aber zwei Möglichkeiten liegen
nahe: Einerseits die Plausibilität des ursprünglichen Befundes, andererseits die Stärke des ursprünglichen
statistischen Nachweises. Michael Kirchler ergänzt: „Der Einsatz von Prognosemärkten könnte eine
weitere Möglichkeit in der wissenschaftlichen Forschung sein, Ressourcen effizienter zu nutzen und dadurch
die Entdeckung von neuen, zuverlässigen Forschungsergebnissen zu beschleunigen.“
Herausforderungen bei Replikation
Diese Studie liefert zusätzliche Belege für die Herausforderungen bei der Reproduktion wissenschaftlicher
Arbeiten und geht auf einige Kritikpunkte früherer Replikationsversuche ein. Beispielsweise ist es möglich,
dass sich die Ergebnisse aufgrund der hohen Standards und des Prestiges des Verlagshauses besser reproduzieren
ließen. In dieser Studie wurden deshalb Arbeiten aus den renommiertesten Fachzeitschriften ausgewählt.
Auch eine Kritik am Reproduzierbarkeitsprojekt in der Psychologie deutete darauf hin, dass ein trennschärferes
Forschungsdesign und die Nähe zu den ursprünglichen Studien zu höheren Replikationsraten führen
könnten. Die aktuelle Studie basiert auf äußerst trennscharfen statistischen Tests, Originalmaterialien
für alle bis auf eine Studie und der Befürwortung der experimentellen Protokolle durch die Originalautoren
für alle bis auf zwei Studien. „Dass einige der Ergebnisse dennoch nicht reproduziert werden konnten und die
Replikationen im Durchschnitt deutlich geringere Effektgrößen aufweisen, zeigt auf, dass selbst eine
deutliche Erhöhung der statistischen Güte nicht ausreicht, um alle publizierten Ergebnisse zu reproduzieren“,
sagt Co-Autorin Julia Rose.
Dass einige der Ergebnisse nicht reproduziert wurden, bedeutet allerdings nicht, dass die ursprünglichen Resultate
falsch sind. „Es ist möglich, dass Fehler in der Replikation oder Unterschiede zwischen der Original- und
der Replikationsstudie verantwortlich für ‚Reproduktionsausfälle‘ sind. Die Tatsache, dass die Marktteilnehmer
in der Lage waren, Erfolg und Misserfolg im Vorfeld zu prognostizieren, macht diese Erklärungen aber weniger
plausibel“, sagte Felix Holzmeister. Die aktuellen Replikationen folgen Best Practices zur Erhöhung der Sorgfalt
und Reproduzierbarkeit der Forschung. „In diesem Projekt sind wir mit gutem Beispiel vorangegangen und haben die
höchsten Standards von wissenschaftlicher Rigorosität und Transparenz verfolgt, um die Reproduzierbarkeit
und Robustheit von Studien in unserem Bereich zu testen“, ergänzt Michael Kirchler.
Das Wesen der Wissenschaft
Einer der Projektleiter, Brian Nosek, Exekutivdirektor des Center for Open Science und Professor an der University
of Virginia, merkt an: „Jemand, der diese Fehler beobachtet, könnte zu dem Schluss kommen, dass die Wissenschaft
in die falsche Richtung geht. Die größte Stärke der Wissenschaft ist ihre ständige Selbstkontrolle,
um Probleme zu erkennen und zu korrigieren.“ Dieses groß angelegte Replikationsprojekt ist nur ein Teil einer
laufenden Reform der Forschungspraktiken. Forscher, Förderinstitutionen, Fachjournale und Gesellschaften ändern
derzeit ihre Politik und Praxis, um die Forschungskultur zu mehr Offenheit, Rigorosität und Reproduzierbarkeit
zu bewegen.
Publikation: Colin F. Camerer, Anna
Dreber, Felix Holzmeister, Teck-Hua Ho, Jürgen Huber, Magnus Johannesson, Michael Kirchler, Gideon Nave, Brian
A. Nosek, Thomas Pfeiffer, Adam Altmejd, Nick Buttrick, Taizan Chan, Yiling Chen, Eskil Forsell, Anup Gampa, Emma
Heikensten, Lily Hummer, Taisuke Imai, Siri Isaksson, Dylan Manfredi, Julia Rose, Eric-Jan Wagenmakers, Hang Wu:
Evaluating the replicability of social science experiments in Nature and Science between 2010 and 2015, Nature
Human Behaviour 2018, http://dx.doi.org/10.1038/s41562-018-0399-z
|