Kategorier: Kvantitativ

Tags: P Hacking, Replikering, Statistikk

Ingen p hacking tegn

det er en replikasjonskrise i vitenskapen – uidentifiserte «falske positiver» gjennomsyrer selv våre toppforskningstidskrifter.

en falsk positiv er en påstand om at en effekt eksisterer når den i virkeligheten ikke gjør det. Ingen vet hvilken andel av publiserte artikler som inneholder slike feilaktige eller overdrevne resultater, men det er tegn på at andelen ikke er liten.

epidemiologen John Ioannidis ga den beste forklaringen på dette fenomenet i et berømt papir i 2005, provoserende med tittelen «Hvorfor de fleste publiserte forskningsresultater er falske». En av grunnene Til At Ioannidis ga for så mange falske resultater, har blitt kalt «p hacking», som oppstår fra presset forskerne føler for å oppnå statistisk signifikans.

hva er statistisk signifikans?

for å trekke konklusjoner fra data, er forskere vanligvis avhengige av signifikansstesting. Enkelt sagt betyr dette å beregne «p-verdien», som er sannsynligheten for resultater som vår hvis det egentlig ikke er noen effekt. Hvis p-verdien er tilstrekkelig liten, blir resultatet deklarert å være statistisk signifikant.

Tradisjonelt er en p-verdi mindre enn .05 er kriteriet for signifikans. Hvis du rapporterer en p<.05, leserne er sannsynlig å tro at du har funnet en reell effekt. Kanskje, men det er faktisk ingen effekt, og du har rapportert en falsk positiv.

Mange tidsskrifter vil kun publisere studier som kan rapportere en eller flere statistisk signifikante effekter. Hovedfagsstudenter raskt lære at å oppnå den mytiske p

dette presset for å oppnå pp hacking.

lokke av p hacking

for å illustrere p hacking, her er et hypotetisk eksempel.

Conversation-logo

Denne artikkelen Av Geoff Cumming opprinnelig dukket opp På The Conversation under tittelen «En grunn så mange vitenskapelige studier kan være galt» og er reposted under bruk En Creative Commons Attribution NoDerivatives lisens.

Bruce har nylig fullført En Doktorgrad og har landet et prestisjefylt stipend for å bli med i et av de beste forskerteamene i sitt felt. Hans første eksperiment virker ikke bra, Men Bruce foredler raskt prosedyrene og driver en annen studie. Dette ser mer lovende ut, men gir fortsatt ikke en p-verdi på mindre enn .05.

Overbevist om at Han er inne på noe, Samler Bruce flere data. Han bestemmer seg for å slippe noen av resultatene,som så tydelig ut.

han merker da at et av hans tiltak gir et klarere bilde, så han fokuserer på det. Noen flere tweaks og Bruce identifiserer endelig en litt overraskende, men veldig interessant effekt som oppnår p

Bruce prøvde Så hardt å finne effekten han visste lurket et sted. Han følte også presset for å slå p

Det er bare en fangst: det var faktisk ingen effekt. Til tross for statistisk signifikant resultat, Bruce har publisert en falsk positiv.

Bruce følte At Han brukte sin vitenskapelige innsikt til å avsløre lurkeffekten da Han tok ulike skritt etter å ha startet sin studie:

  • han samlet ytterligere data.
  • han droppet noen data som virket avvikende.
  • han droppet noen av sine tiltak og fokuserte på det mest lovende.
  • han analyserte dataene litt annerledes og gjorde noen ytterligere tweaks.

problemet er at alle disse valgene ble gjort etter å ha sett dataene. Bruce kan ubevisst ha vært kirsebærplukking-valg og tweaking til han fikk den unnvikende pp

Statistikere har et ordtak: hvis du torturerer dataene nok, vil De bekjenne. Valg og tweaks gjort etter å ha sett dataene er tvilsom forskningspraksis. Ved å bruke disse, bevisst eller ikke, for å oppnå riktig statistisk resultat, er p hacking, noe som er en viktig årsak til at publiserte, statistisk signifikante resultater kan være falske positiver.

hvor stor andel av publiserte resultater er feil?

Dette er et godt spørsmål, og en fiendishly vanskelig en. Ingen vet svaret, som sannsynligvis vil være forskjellig i ulike forskningsfelt.

en stor og imponerende innsats for å svare på spørsmålet om sosial og kognitiv psykologi ble publisert i 2015. Ledet Av Brian Nosek og hans kolleger Ved Center For Open Science, Hadde Replicability Project: Psychology (RP:P) 100 forskningsgrupper rundt om i verden hver utført en forsiktig replikering av en av 100 publiserte resultater. Samlet sett repliserte omtrent 40 ganske bra, mens i rundt 60 tilfeller oppnådde replikasjonsstudiene mindre eller mye mindre effekter.

100 rp: P replikasjonsstudier rapporterte effekter som i gjennomsnitt bare var halvparten av effektene rapportert av de opprinnelige studiene. De nøye utførte replikasjonene gir sannsynligvis mer nøyaktige estimater enn de muligens p hackede opprinnelige studiene, slik at vi kan konkludere med at de opprinnelige studiene overvurderte sanne effekter med i gjennomsnitt en faktor på to. Det er alarmerende!

hvordan unngå p hacking

den beste måten å unngå p hacking er å unngå å gjøre noen valg eller tweaks etter å ha sett dataene. Med andre ord, unngå tvilsom forskningspraksis. I de fleste tilfeller er den beste måten å gjøre dette på å bruke forhåndsregistrering.

Forhåndsregistrering krever at du på forhånd utarbeider en detaljert forskningsplan, inkludert den statistiske analysen som skal brukes på dataene. Deretter forhåndsregistrerer du planen, med datostempel, På Open Science Framework eller et annet nettregister.

utfør deretter studien, analyser dataene i samsvar med planen, og rapporter resultatene, uansett hva de er. Leserne kan sjekke den forhåndsregistrerte planen og dermed være sikre på at analysen ble spesifisert på forhånd, og ikke p hacket. Forhåndsregistrering er en utfordrende ny ide for mange forskere, men sannsynligvis vil være fremtidens vei.

Estimering i stedet for p-verdier

fristelsen til p-hack er en av de store ulempene ved å stole på p-verdier. En annen er at prather som å si at en effekt eksisterer eller det ikke.

men verden er ikke svart og hvit. For å gjenkjenne de mange gråtonene er det mye bedre å bruke estimering i stedet for p-verdier. Målet med estimering er å estimere størrelsen på en effekt – som kan være liten eller stor, null eller til og med negativ. Når det gjelder estimering, er et falskt positivt resultat et estimat som er større eller mye større enn den sanne verdien av en effekt.

La oss ta en hypotetisk studie om virkningen av terapi. Studien kan for eksempel anslå at terapi i gjennomsnitt gir en 7-punkts reduksjon i angst. Anta at vi beregner fra våre data et konfidensintervall – en rekke usikkerheter hver side av vårt beste estimat-av . Dette forteller oss at vårt estimat på 7 er mest sannsynlig innen ca 3 poeng på angstskalaen av den sanne effekten – den sanne gjennomsnittlige fordelen av terapien.

med andre ord indikerer konfidensintervallet hvor nøyaktig vårt estimat er. Å vite et slikt estimat og dets konfidensintervall er mye mer informativt enn noen p-verdi.

jeg refererer til estimering som en av » ny statistikk.»Teknikkene selv er ikke nye, men å bruke dem som den viktigste måten å trekke konklusjoner fra data, vil for mange forskere være nye, og et stort skritt fremover. Det vil også bidra til å unngå forvrengninger forårsaket av p hacking. Samtalen

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert.