Categories: Quantitative

Tags: p Hacking, Replication, Statistics

No P hacking sign

Es gibt eine Replizierbarkeitskrise in der Wissenschaft – nicht identifizierte „false positives“ durchdringen sogar unsere Top-Forschungsjournale.

Ein falsches Positiv ist eine Behauptung, dass ein Effekt existiert, wenn er in Wirklichkeit nicht vorhanden ist. Niemand weiß, welcher Anteil der veröffentlichten Arbeiten solche falschen oder übertriebenen Ergebnisse enthält, aber es gibt Anzeichen dafür, dass der Anteil nicht gering ist.

Der Epidemiologe John Ioannidis gab 2005 in einem berühmten Artikel mit dem provokanten Titel „Warum die meisten veröffentlichten Forschungsergebnisse falsch sind“ die beste Erklärung für dieses Phänomen. Einer der Gründe, die Ioannidis für so viele falsche Ergebnisse angab, wurde als „p-Hacking“ bezeichnet, das sich aus dem Druck ergibt, den Forscher empfinden, um statistische Signifikanz zu erreichen.

Was ist statistische Signifikanz?

Um Schlussfolgerungen aus Daten zu ziehen, verlassen sich Forscher normalerweise auf Signifikanztests. In einfachen Worten bedeutet dies, den „p-Wert“ zu berechnen, der die Wahrscheinlichkeit von Ergebnissen wie unserem ist, wenn es wirklich keinen Effekt gibt. Wenn der p-Wert ausreichend klein ist, wird das Ergebnis als statistisch signifikant deklariert.

Traditionell ein p-Wert von weniger als .05 ist das Signifikanzkriterium. Wenn Sie ein p< melden.05, Leser werden wahrscheinlich glauben, dass Sie einen echten Effekt gefunden haben. Möglicherweise gibt es jedoch tatsächlich keine Wirkung und Sie haben ein falsch positives Ergebnis gemeldet.

Viele Zeitschriften veröffentlichen nur Studien, die einen oder mehrere statistisch signifikante Effekte melden können. Doktoranden lernen schnell, dass das Erreichen der mythischen p

Dieser Druck pp Hacking zu erreichen.

Die Verlockung von p-Hacking

Um p-Hacking zu veranschaulichen, ist hier ein hypothetisches Beispiel.

Conversation-logo

Dieser Artikel von Geoff Cumming erschien ursprünglich bei The Conversation unter dem Titel „One reason so many scientific studies may be wrong“ und wird unter Verwendung einer Creative Commons Attribution NoDerivatives-Lizenz erneut veröffentlicht.

Bruce hat kürzlich seine Promotion abgeschlossen und ein prestigeträchtiges Stipendium erhalten, um einem der besten Forschungsteams auf seinem Gebiet beizutreten. Sein erstes Experiment funktioniert nicht gut, aber Bruce verfeinert schnell die Verfahren und führt eine zweite Studie durch. Dies sieht vielversprechender aus, gibt aber immer noch keinen p-Wert von weniger als .05.

Überzeugt, dass er auf etwas steht, sammelt Bruce mehr Daten. Er beschließt, einige der Ergebnisse fallen zu lassen, das sah eindeutig weit weg aus.

Er bemerkt dann, dass eine seiner Maßnahmen ein klareres Bild ergibt, also konzentriert er sich darauf. Ein paar weitere Optimierungen und Bruce identifiziert schließlich einen etwas überraschenden, aber wirklich interessanten Effekt, der p

Bruce versuchte so sehr, den Effekt zu finden, von dem er wusste, dass er irgendwo lauerte. Er spürte auch den Druck, p

Es gibt nur einen Haken: Es gab tatsächlich keinen Effekt. Trotz des statistisch signifikanten Ergebnisses hat Bruce ein falsch positives Ergebnis veröffentlicht.

Bruce hatte das Gefühl, seine wissenschaftlichen Erkenntnisse zu nutzen, um den lauernden Effekt aufzudecken, als er nach Beginn seiner Studie verschiedene Schritte unternahm:

  • Er sammelte weitere Daten.
  • Er ließ einige Daten fallen, die aberrant erschienen.
  • Er ließ einige seiner Maßnahmen fallen und konzentrierte sich auf die vielversprechendsten.
  • Er analysierte die Daten etwas anders und nahm ein paar weitere Änderungen vor.

Das Problem ist, dass alle diese Entscheidungen getroffen wurden, nachdem die Daten angezeigt wurden. Bruce May hat unbewusst Rosinenpicken – Auswählen und optimieren, bis er das schwer fassbare pp

Statistiker haben ein Sprichwort: Wenn Sie die Daten genug quälen, werden sie gestehen. Entscheidungen und Optimierungen, die nach dem Anzeigen der Daten getroffen wurden, sind fragwürdige Forschungspraktiken. Diese absichtlich oder nicht zu verwenden, um das richtige statistische Ergebnis zu erzielen, ist ein wichtiger Grund dafür, dass veröffentlichte, statistisch signifikante Ergebnisse falsch positiv sein können.

Welcher Anteil der veröffentlichten Ergebnisse ist falsch?

Dies ist eine gute und teuflisch knifflige Frage. Niemand kennt die Antwort, die wahrscheinlich in verschiedenen Forschungsbereichen unterschiedlich sein wird.

Eine große und beeindruckende Anstrengung, die Frage für die Sozial- und Kognitionspsychologie zu beantworten, wurde 2015 veröffentlicht. Unter der Leitung von Brian Nosek und seinen Kollegen am Center for Open Science, dem Replicability Project: Psychology (RP: P), führten 100 Forschungsgruppen auf der ganzen Welt jeweils eine sorgfältige Replikation eines von 100 veröffentlichten Ergebnissen durch. Insgesamt replizierten etwa 40 ziemlich gut, während in etwa 60 Fällen die Replikationsstudien kleinere oder viel kleinere Effekte erzielten.

Die 100 RP: P-Replikationsstudien berichteten über Effekte, die im Durchschnitt nur halb so groß waren wie die in den ursprünglichen Studien berichteten Effekte. Die sorgfältig durchgeführten Replikationen geben wahrscheinlich genauere Schätzungen ab als die möglicherweise verfälschten Originalstudien, so dass wir zu dem Schluss kommen konnten, dass die Originalstudien die tatsächlichen Effekte im Durchschnitt um den Faktor zwei überschätzten. Das ist alarmierend!

So vermeiden Sie p-Hacking

Der beste Weg, um p-Hacking zu vermeiden, besteht darin, keine Auswahl zu treffen oder Änderungen vorzunehmen, nachdem die Daten angezeigt wurden. Mit anderen Worten, vermeiden Sie fragwürdige Forschungspraktiken. In den meisten Fällen ist der beste Weg, dies zu tun, die Vorregistrierung.

Die Vorregistrierung erfordert, dass Sie im Voraus einen detaillierten Forschungsplan erstellen, einschließlich der statistischen Analyse, die auf die Daten angewendet werden soll. Dann registrieren Sie den Plan mit Datumsstempel beim Open Science Framework oder einer anderen Online-Registrierung.

Führen Sie dann die Studie durch, analysieren Sie die Daten gemäß dem Plan und melden Sie die Ergebnisse, was auch immer sie sind. Leser können den vorregistrierten Plan überprüfen und somit sicher sein, dass die Analyse im Voraus festgelegt wurde und nicht pauschal. Die Vorregistrierung ist für viele Forscher eine herausfordernde neue Idee, aber wahrscheinlich der Weg der Zukunft.

Schätzung statt p-Werte

Die Versuchung zu p-Hack ist einer der großen Nachteile der Abhängigkeit von p-Werten. Ein anderer ist, dass die Prather sagen, dass ein Effekt existiert oder nicht.

Aber die Welt ist nicht schwarz und weiß. Um die zahlreichen Graustufen zu erkennen, ist es viel besser, eine Schätzung anstelle von p-Werten zu verwenden. Ziel der Schätzung ist es, die Größe eines Effekts abzuschätzen – der klein oder groß, null oder sogar negativ sein kann. In Bezug auf die Schätzung ist ein falsch positives Ergebnis eine Schätzung, die größer oder viel größer ist als der wahre Wert eines Effekts.

Nehmen wir eine hypothetische Studie über die Auswirkungen der Therapie. Die Studie könnte zum Beispiel schätzen, dass die Therapie im Durchschnitt eine Abnahme der Angst um 7 Punkte bewirkt. Angenommen, wir berechnen aus unseren Daten ein Konfidenzintervall – einen Unsicherheitsbereich auf beiden Seiten unserer besten Schätzung – von . Dies sagt uns, dass unsere Schätzung von 7 höchstwahrscheinlich innerhalb von etwa 3 Punkten auf der Angstskala des wahren Effekts liegt – dem wahren durchschnittlichen Nutzen der Therapie.

Mit anderen Worten, das Konfidenzintervall gibt an, wie genau unsere Schätzung ist. Die Kenntnis einer solchen Schätzung und ihres Konfidenzintervalls ist viel aussagekräftiger als jeder p-Wert.

Ich bezeichne die Schätzung als eine der „neuen Statistiken.“ Die Techniken selbst sind nicht neu, aber sie als Hauptweg zu verwenden, um Schlussfolgerungen aus Daten zu ziehen, wäre für viele Forscher neu und ein großer Schritt nach vorne. Es würde auch dazu beitragen, die durch p-Hacking verursachten Verzerrungen zu vermeiden.Das Gespräch

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.