Categories: Quantitative

Tags: P Hacking, Replication, Statistics

No p hacking sign

er is een replicability crisis in science – unidentified “false positieven” zijn doordrongen zelfs onze Top research journals.

een vals-positief is een bewering dat een effect bestaat wanneer het in werkelijkheid niet bestaat. niemand weet welk deel van gepubliceerde papers zulke onjuiste of overdreven resultaten bevatten, maar er zijn tekenen dat het aandeel niet klein is.

de epidemioloog John Ioannidis gaf de beste verklaring voor dit fenomeen in een beroemde paper in 2005, provocatief getiteld “Why most published research results are false”. Een van de redenen die Ioannidis gaf voor zoveel valse resultaten is “P hacking” geworden, die voortvloeit uit de druk die onderzoekers voelen om statistische significantie te bereiken.

Wat is statistische significantie?

om conclusies te trekken uit gegevens, vertrouwen onderzoekers meestal op significantie testen. In eenvoudige termen betekent dit het berekenen van de” p-waarde”, wat de waarschijnlijkheid is van resultaten zoals die van ons als er echt geen effect is. Als de p-waarde voldoende klein is, wordt het resultaat statistisch significant verklaard.

traditioneel, een p-waarde van minder dan .05 is het criterium voor Betekenis. Als u een p<rapporteert.05, lezers zullen waarschijnlijk geloven dat je een echt effect hebt gevonden. Misschien is er eigenlijk geen effect en hebt u een vals positief gemeld.

veel tijdschriften publiceren alleen studies die een of meer statistisch significante effecten kunnen rapporteren. Afgestudeerde studenten snel leren dat het bereiken van de mythische p

deze druk om pp hacking te bereiken.

de verleiding van P hacking

om P hacking te illustreren, is hier een hypothetisch voorbeeld.

Conversation-logo

dit artikel van Geoff Cumming verscheen oorspronkelijk op het gesprek onder de titel “One reason so many scientific studies may be wrong” en is opnieuw geplaatst onder Gebruik een Creative Commons Attribution NoDerivatives licentie.

Bruce heeft onlangs een doctoraat behaald en heeft een prestigieuze beurs gekregen om lid te worden van een van de beste onderzoeksteams in zijn vakgebied. Zijn eerste experiment werkt niet goed, maar Bruce verfijnt snel de procedures en voert een tweede studie uit. Dit ziet er veelbelovend uit, maar geeft nog steeds geen p-waarde van minder dan .05.

ervan overtuigd dat hij iets op het spoor is, verzamelt Bruce meer gegevens. Hij besluit om een paar van de resultaten af te geven, die er duidelijk ver van af.

hij merkt dan dat een van zijn maatregelen een duidelijker beeld geeft, dus richt hij zich daarop. Nog een paar tweaks en Bruce identificeert eindelijk een enigszins verrassend maar echt interessant effect dat P

bereikt Bruce probeerde zo hard om het effect te vinden dat hij wist dat het ergens op de loer lag. Hij voelde ook de druk om P

te raken er is maar één vangst: er was eigenlijk geen effect. Ondanks het statistisch significante resultaat, heeft Bruce een vals positief gepubliceerd.

Bruce vond dat hij zijn wetenschappelijk inzicht gebruikte om het loerende effect te onthullen toen hij verschillende stappen nam na het starten van zijn studie:

  • hij verzamelde verdere gegevens.
  • hij liet enkele gegevens vallen die afwijkend leken.
  • hij liet een aantal van zijn maatregelen vallen en richtte zich op de meest veelbelovende.
  • hij analyseerde de gegevens een beetje anders en maakte nog enkele aanpassingen.

het probleem is dat al deze keuzes werden gemaakt na het zien van de gegevens. Bruce kan, onbewust, zijn cherry-picking-selecteren en tweaken totdat hij de ongrijpbare pp

statistici hebben een gezegde: als je de gegevens genoeg kwelt, zullen ze bekennen. Keuzes en tweaks gemaakt na het zien van de gegevens zijn twijfelachtige onderzoekspraktijken. Het gebruik van deze, opzettelijk of niet, om het juiste statistische resultaat te bereiken is P hacking, wat een belangrijke reden is dat gepubliceerde, statistisch significante resultaten vals-positieven kunnen zijn.

welk percentage van de gepubliceerde resultaten is onjuist?

dit is een goede vraag, en een duivels lastige. Niemand kent het antwoord, dat waarschijnlijk anders zal zijn op verschillende onderzoeksgebieden.

een grote en indrukwekkende inspanning om de vraag voor sociale en cognitieve psychologie te beantwoorden werd gepubliceerd in 2015. Onder leiding van Brian Nosek en zijn collega ‘ s van het Center for Open Science, liet het Replicability Project: Psychology (RP:P) 100 onderzoeksgroepen over de hele wereld elk een zorgvuldige replicatie uitvoeren van een van de 100 gepubliceerde resultaten. Globaal, grofweg 40 gerepliceerd vrij goed, terwijl in ongeveer 60 gevallen de replicatiestudies kleinere of veel kleinere gevolgen verkregen.

in de 100 RP: P-replicatiestudies werden effecten gemeld die gemiddeld slechts half zo groot waren als de effecten die in de oorspronkelijke studies werden gerapporteerd. De zorgvuldig uitgevoerde replicaties geven waarschijnlijk meer accurate schattingen dan de mogelijk p gehackte originele studies, dus we kunnen concluderen dat de oorspronkelijke studies overschat ware effecten door, gemiddeld, een factor twee. Dat is alarmerend!

How to avoid p hacking

de beste manier om P hacking te voorkomen is het vermijden van een selectie of tweaks na het zien van de gegevens. Met andere woorden, vermijd twijfelachtige onderzoekspraktijken. In de meeste gevallen, de beste manier om dit te doen is het gebruik van preregistratie.

voor registratie moet u vooraf een gedetailleerd onderzoeksplan opstellen, met inbegrip van de statistische analyse die op de gegevens moet worden toegepast. Dan schrijf je het plan voor, met datumstempel, bij het Open Science Framework of een ander online register.

voer vervolgens het onderzoek uit, analyseer de gegevens in overeenstemming met het plan en rapporteer de resultaten, ongeacht de aard ervan. Lezers kunnen de vooraf geregistreerde plan te controleren en dus er zeker van zijn dat de analyse van tevoren werd gespecificeerd, en niet P gehackt. Preregistratie is een uitdagend nieuw idee voor veel onderzoekers, maar waarschijnlijk de weg van de toekomst.

schatting in plaats van p-waarden

de verleiding om P te hacken is een van de grote nadelen van het vertrouwen op p-waarden. Een ander is dat de prather zegt dat een effect bestaat of niet bestaat.

maar de wereld is niet zwart-wit. Om de vele grijstinten te herkennen is het veel beter om schatting te gebruiken in plaats van p-waarden. Het doel met schatting is om de grootte van een effect te schatten-die klein of groot, nul of zelfs negatief kan zijn. In termen van schatting is een fout-positief resultaat een schatting die groter of veel groter is dan de werkelijke waarde van een effect.

laten we een hypothetische studie nemen over de impact van therapie. De studie zou bijvoorbeeld kunnen schatten dat therapie, gemiddeld, een 7-punts afname van angst geeft. Stel dat we op basis van onze gegevens een betrouwbaarheidsinterval – een waaier van onzekerheid aan weerszijden van onze beste schatting – van berekenen . Dit vertelt ons dat onze schatting van 7 is, het meest waarschijnlijk, binnen ongeveer 3 punten op de angst schaal van het ware effect – de werkelijke gemiddelde hoeveelheid voordeel van de therapie.

met andere woorden, het betrouwbaarheidsinterval geeft aan hoe nauwkeurig onze schatting is. Het kennen van een dergelijke schatting en het betrouwbaarheidsinterval is veel informeler dan enige p-waarde.

ik verwijs naar schatting als een van de ” nieuwe statistieken.”De technieken zelf zijn niet nieuw, maar ze gebruiken als de belangrijkste manier om conclusies te trekken uit gegevens zou voor veel onderzoekers nieuw zijn, en een grote stap voorwaarts. Het zou ook helpen voorkomen dat de vervormingen veroorzaakt door P hacking.Het Gesprek

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.