kategorier: kvantitativ

taggar: p Hacking, replikering, statistik

ingen P hacking tecken

det finns en replikerbarhetskris i vetenskapen – oidentifierade ”falska positiva” genomsyrar även våra bästa forskningstidskrifter.

ett falskt positivt är ett påstående om att en effekt existerar när den i verkligheten inte gör det. ingen vet vilken andel publicerade artiklar innehåller sådana felaktiga eller överdrivna resultat, men det finns tecken på att andelen inte är liten.

epidemiologen John Ioannidis gav den bästa förklaringen till detta fenomen i ett berömt papper 2005, provokativt med titeln ”Varför de flesta publicerade forskningsresultaten är falska”. En av anledningarna Ioannidis gav för så många falska resultat har kommit att kallas” p hacking”, som härrör från trycket forskarna känner för att uppnå statistisk signifikans.

vad är statistisk signifikans?

för att dra slutsatser från data är forskare vanligtvis beroende av signifikanstestning. Enkelt uttryckt betyder det att beräkna” p-värdet”, vilket är sannolikheten för resultat som vårt om det verkligen inte finns någon effekt. Om p-värdet är tillräckligt litet förklaras resultatet vara statistiskt signifikant.

traditionellt, ett p-värde på mindre än .05 är kriteriet för betydelse. Om du rapporterar en p<.05, läsare kommer sannolikt att tro att du har hittat en verklig effekt. Kanske är det dock faktiskt ingen effekt och du har rapporterat ett falskt positivt.

många tidskrifter publicerar bara studier som kan rapportera en eller flera statistiskt signifikanta effekter. Doktorander lär sig snabbt att uppnå den mytiska p

detta tryck för att uppnå pp hacking.

locket av p hacking

för att illustrera p hacking, här är ett hypotetiskt exempel.

Conversation-logo

denna artikel av Geoff Cumming ursprungligen dök upp på konversationen under titeln” En anledning så många vetenskapliga studier kan vara fel ” och reposted under användning en Creative Commons Attribution NoDerivatives licens.

Bruce har nyligen avslutat en doktorsexamen och har landat ett prestigefyllt bidrag för att gå med i ett av de bästa forskargrupperna inom sitt område. Hans första experiment fungerar inte bra, men Bruce förfinar snabbt procedurerna och driver en andra studie. Detta ser mer lovande ut, men ger fortfarande inte ett p-värde på mindre än .05.

övertygad om att han är på något, samlar Bruce mer data. Han bestämmer sig för att släppa några av resultaten, som såg klart långt borta.

han märker då att en av hans åtgärder ger en tydligare bild, så han fokuserar på det. Några fler tweaks och Bruce identifierar äntligen en lite överraskande men väldigt intressant effekt som uppnår p

Bruce försökte så svårt att hitta den effekt som han visste lurade någonstans. Han kände också trycket att slå p

det finns bara en fångst: det fanns faktiskt ingen effekt. Trots det statistiskt signifikanta resultatet har Bruce publicerat ett falskt positivt.

Bruce kände att han använde sin vetenskapliga insikt för att avslöja den lurande effekten när han tog olika steg efter att ha startat sin studie:

  • han samlade in ytterligare data.
  • han tappade några data som verkade avvikande.
  • han tappade några av sina åtgärder och fokuserade på de mest lovande.
  • han analyserade data lite annorlunda och gjorde några ytterligare tweaks.

problemet är att alla dessa val gjordes efter att ha sett data. Bruce may, omedvetet, har varit körsbärsplockningsval och tweaking tills han fick den elusiva pp

statistiker har ett ordstäv: om du torterar uppgifterna tillräckligt, kommer de att bekänna. Val och tweaks som gjorts efter att ha sett data är tvivelaktiga forskningsmetoder. Att använda dessa, medvetet eller inte, för att uppnå rätt statistiskt resultat är p hacking, vilket är en viktig orsak till att publicerade statistiskt signifikanta resultat kan vara falska positiva.

vilken andel publicerade resultat är fel?

Detta är en bra fråga, och en djävulskt knepig en. Ingen vet svaret, vilket sannolikt kommer att vara annorlunda inom olika forskningsområden.

en stor och imponerande insats för att svara på frågan för social och kognitiv psykologi publicerades 2015. Ledd av Brian Nosek och hans kollegor vid Center for Open Science, Replicability Project: Psychology (RP:P) hade 100 forskargrupper runt om i världen var och en utför en noggrann replikering av ett av 100 publicerade resultat. Sammantaget replikerade ungefär 40 ganska bra, medan i cirka 60 fall fick replikationsstudierna mindre eller mycket mindre effekter.

100 Rp:P-replikationsstudierna rapporterade effekter som i genomsnitt bara var hälften av de effekter som rapporterades av de ursprungliga studierna. De noggrant genomförda replikationerna ger förmodligen mer exakta uppskattningar än de eventuellt p-hackade originalstudierna, så vi kunde dra slutsatsen att de ursprungliga studierna överskattade sanna effekter med i genomsnitt en faktor på två. Det är alarmerande!

hur man undviker p hacking

det bästa sättet att undvika p hacking är att undvika att göra några val eller tweaks efter att ha sett data. Med andra ord, undvik tvivelaktiga forskningsmetoder. I de flesta fall är det bästa sättet att göra detta att använda förregistrering.

förregistrering kräver att du i förväg förbereder en detaljerad forskningsplan, inklusive den statistiska analys som ska tillämpas på uppgifterna. Sedan förregistrerar du Planen, med datumstämpel, vid Open Science Framework eller något annat online-register.

utför sedan studien, analysera data i enlighet med planen och rapportera resultaten, oavsett vad de är. Läsarna kan kontrollera den förregistrerade planen och därmed vara övertygade om att analysen specificerades i förväg och inte p hackad. Föranmälan är en utmanande ny tanke för många forskare, men kommer sannolikt att vara vägen för framtiden.

uppskattning snarare än p-värden

frestelsen att p hacka är en av de stora nackdelarna med att förlita sig på p-värden. En annan är att prather som att säga att en effekt existerar eller inte.

men världen är inte svartvitt. För att känna igen de många gråtonerna är det mycket bättre att använda uppskattning snarare än p-värden. Syftet med estimering är att uppskatta storleken på en effekt – som kan vara liten eller stor, noll eller till och med negativ. När det gäller uppskattning är ett falskt positivt resultat en uppskattning som är större eller mycket större än det verkliga värdet av en effekt.

Låt oss ta en hypotetisk studie om effekten av terapi. Studien kan till exempel uppskatta att terapi i genomsnitt ger en 7-punkts minskning av ångest. Antag att vi beräknar från våra data ett konfidensintervall – en rad osäkerhet vardera sidan av vår bästa uppskattning-av . Detta berättar för oss att vår uppskattning av 7 är sannolikt inom cirka 3 poäng på ångestskalan för den verkliga effekten – den verkliga genomsnittliga nyttan av terapin.

med andra ord indikerar konfidensintervallet hur exakt vår uppskattning är. Att veta en sådan uppskattning och dess konfidensintervall är mycket mer informativt än något p-värde.

jag hänvisar till uppskattning som en av de ” nya statistiken.”Teknikerna själva är inte nya, men att använda dem som det viktigaste sättet att dra slutsatser från data skulle för många forskare vara nya och ett stort steg framåt. Det skulle också bidra till att undvika snedvridningar orsakade av p hacking.Konversationen

Lämna ett svar

Din e-postadress kommer inte publiceras.