kategorier: kvantitativ

Tags: P Hacking, replikation, statistik

ingen P hacking tegn

der er en replikabilitetskrise i videnskaben – uidentificerede “falske positiver” gennemsyrer selv vores topforskningsjournaler.

en falsk positiv er en påstand om, at en effekt eksisterer, når den i virkeligheden ikke gør det. ingen ved, hvilken andel af offentliggjorte papirer der indeholder sådanne forkerte eller overdrevne resultater, men der er tegn på, at andelen ikke er lille.

epidemiologen John Ioannidis gav den bedste forklaring på dette fænomen i et berømt papir i 2005, provokerende med titlen “Hvorfor de fleste offentliggjorte forskningsresultater er falske”. En af grundene til, at Ioannidis gav så mange falske resultater, er blevet kaldt “p hacking”, som stammer fra det pres, forskerne føler for at opnå statistisk signifikans.

hvad er statistisk signifikans?

for at drage konklusioner fra data er forskere normalt afhængige af signifikanstest. Enkelt sagt betyder det at beregne” p-værdien”, hvilket er sandsynligheden for resultater som vores, hvis der virkelig ikke er nogen effekt. Hvis p-værdien er tilstrækkelig lille, erklæres resultatet for at være statistisk signifikant.

traditionelt er en p-værdi på mindre end .05 er kriteriet for Betydning. Hvis du rapporterer en p<.05, læsere vil sandsynligvis tro, at du har fundet en reel effekt. Måske er der dog faktisk ingen effekt, og du har rapporteret en falsk positiv.

mange tidsskrifter vil kun offentliggøre undersøgelser, der kan rapportere en eller flere statistisk signifikante effekter. Graduate studerende lærer hurtigt at opnå den mytiske p

dette pres for at opnå pp hacking.

lokke af p hacking

for at illustrere p hacking, her er et hypotetisk eksempel.

Conversation-logo

denne artikel af Geoff Cumming dukkede oprindeligt op på The Conversation under titlen “En af grundene til, at så mange videnskabelige undersøgelser kan være forkerte” og genplaceres under brug en Creative Commons Attribution NoDerivatives-Licens.

Bruce har for nylig afsluttet en ph.d. og har fået en prestigefyldt bevilling til at deltage i et af de bedste forskerhold inden for sit felt. Hans første eksperiment fungerer ikke godt, men Bruce forfiner hurtigt procedurerne og kører en anden undersøgelse. Dette ser mere lovende ud, men giver stadig ikke en p-værdi på mindre end .05.

overbevist om, at han er på noget, Bruce samler flere data. Han beslutter at droppe et par af resultaterne, der så tydeligt ud.

han bemærker derefter, at en af hans mål giver et klarere billede, så han fokuserer på det. Et par flere justeringer, og Bruce identificerer endelig en lidt overraskende, men virkelig interessant effekt, der opnår P

Bruce prøvede så hårdt at finde den effekt, som han vidste lurede et eller andet sted. Han følte også presset for at ramme p

der er kun en fangst: der var faktisk ingen effekt. På trods af det statistisk signifikante resultat har Bruce offentliggjort en falsk positiv.

Bruce følte, at han brugte sin videnskabelige indsigt til at afsløre den lurende effekt, da han tog forskellige skridt efter at have startet sin undersøgelse:

  • han indsamlede yderligere data.
  • han droppede nogle data, der syntes afvigende.
  • han droppede nogle af sine foranstaltninger og fokuserede på det mest lovende.
  • han analyserede dataene lidt anderledes og lavede et par yderligere justeringer.

problemet er, at alle disse valg blev foretaget efter at have set dataene. Bruce may har ubevidst været cherry-picking-selecting og finjustering, indtil han opnåede den undvigende pp

statistikere har et ordsprog: hvis du torturerer dataene nok, vil de tilstå. Valg og justeringer foretaget efter at have set dataene er tvivlsom forskningspraksis. Brug af disse, bevidst eller ej, for at opnå det rigtige statistiske resultat er p hacking, hvilket er en vigtig årsag, der offentliggøres, statistisk signifikante resultater kan være falske positive.

hvilken andel af offentliggjorte resultater er forkerte?

dette er et godt spørgsmål, og en djævelsk vanskelig. Ingen kender svaret, som sandsynligvis vil være anderledes inden for forskellige forskningsområder.

en stor og imponerende indsats for at besvare spørgsmålet om social og kognitiv psykologi blev offentliggjort i 2015. Ledet af Brian Nosek og hans kolleger ved Center for Open Science, Replicability Project: Psychology (RP:P) havde 100 forskningsgrupper rundt om i verden hver udført en omhyggelig replikation af et af 100 offentliggjorte resultater. Samlet set replikerede omkring 40 ret godt, mens replikationsundersøgelserne i omkring 60 tilfælde opnåede mindre eller meget mindre effekter.

100 RP:P-replikationsundersøgelserne rapporterede effekter, der i gennemsnit kun var halvdelen af størrelsen af de effekter, der blev rapporteret af de oprindelige undersøgelser. De omhyggeligt udførte replikationer giver sandsynligvis mere nøjagtige estimater end de muligvis p hackede originale undersøgelser, så vi kunne konkludere, at de originale undersøgelser overvurderede sande effekter med, gennemsnitlig, en faktor på to. Det er alarmerende!

Sådan undgår du p-hacking

den bedste måde at undgå p-hacking er at undgå at foretage valg eller justeringer efter at have set dataene. Med andre ord undgå tvivlsom forskningspraksis. I de fleste tilfælde er den bedste måde at gøre dette på at bruge forregistrering.

forregistrering kræver, at du på forhånd udarbejder en detaljeret forskningsplan, herunder den statistiske analyse, der skal anvendes på dataene. Derefter forregistrerer du planen, med datostempel, ved Open Science-rammen eller et andet online-register.

udfør derefter undersøgelsen, analyser dataene i overensstemmelse med planen og rapporter resultaterne, uanset hvad de er. Læsere kan kontrollere den forudregistrerede plan og dermed være sikre på, at analysen blev specificeret på forhånd, og ikke p hacket. Forregistrering er en udfordrende ny ide for mange forskere, men sandsynligvis fremtidens vej.

estimering snarere end p-værdier

fristelsen til p hack er en af de store ulemper ved at stole på p-værdier. En anden er, at prather som at sige en effekt eksisterer, eller det gør det ikke.

men verden er ikke sort / hvid. For at genkende de mange gråtoner er det meget bedre at bruge estimering snarere end p-værdier. Målet med estimering er at estimere størrelsen på en effekt – som kan være lille eller stor, nul eller endda negativ. Med hensyn til estimering er et falsk positivt resultat et skøn, der er større eller meget større end den sande værdi af en effekt.

lad os tage en hypotetisk undersøgelse af virkningen af terapi. Undersøgelsen kan for eksempel estimere, at terapi i gennemsnit giver et 7-punkts fald i angst. Antag, at vi ud fra vores data beregner et konfidensinterval – en række usikkerheder på hver side af vores bedste estimat – af . Dette fortæller os, at vores estimat på 7 sandsynligvis ligger inden for omkring 3 point på angstskalaen for den sande effekt – den sande gennemsnitlige fordel ved terapien.

med andre ord angiver konfidensintervallet, hvor præcist vores skøn er. At kende et sådant skøn og dets konfidensinterval er meget mere informativt end nogen p-værdi.

jeg henviser til estimering som en af de “nye statistikker.”Teknikkerne i sig selv er ikke nye, men at bruge dem som den vigtigste måde at drage konklusioner fra data på ville for mange forskere være nye og et stort skridt fremad. Det ville også hjælpe med at undgå forvrængninger forårsaget af p hacking.Samtalen

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.