Categories: Quantitative

Tags: p Hacking, Replikation, Statistics

No P hacking sign

there is a replikability crisis in science – unidentified ”false positives” are pervoing even our top research journals.

väärä positiivinen on väite, jonka mukaan vaikutus on olemassa, kun se ei todellisuudessa ole. kukaan ei tiedä, mikä osuus julkaistuista papereista sisältää tällaisia virheellisiä tai liioiteltuja tuloksia, mutta on merkkejä siitä, että osuus ei ole pieni.

epidemiologi John Ioannidis antoi parhaan selityksen tälle ilmiölle kuuluisassa tutkielmassaan vuonna 2005, provosoivasti otsikolla ”Why most published research results are false”. Yksi syy Ioannidisin niin monille väärille tuloksille on alettu kutsua ”p-hakkeroinniksi”, mikä johtuu tutkijoiden kokemasta paineesta saavuttaa tilastollinen merkitys.

mikä on tilastollinen merkitsevyys?

johtopäätösten tekemiseksi aineistosta tutkijat turvautuvat yleensä merkitsevyystestaukseen. Yksinkertaistettuna tämä tarkoittaa ”p-arvon” laskemista, joka on meidän kaltaisten tulosten todennäköisyys, jos vaikutusta ei todella ole. Jos p-arvo on riittävän pieni, tulos julistetaan tilastollisesti merkitseväksi.

perinteisesti p-arvo on pienempi kuin .05 on merkityksellisyyden kriteeri. Jos ilmoitat P<.05, lukijat todennäköisesti uskovat, että olet löytänyt todellisen vaikutuksen. Ehkä sillä ei kuitenkaan itse asiassa ole vaikutusta, ja olette ilmoittanut väärän positiivisen tuloksen.

monissa lehdissä julkaistaan vain tutkimuksia, joissa voidaan raportoida yksi tai useampi tilastollisesti merkitsevä vaikutus. Jatko-opiskelijat oppivat nopeasti, että saavuttaa myyttinen p

tämä paine saavuttaa pp hakkerointi.

P: n hakkeroinnin houkutus

kuvaa p: n hakkerointia, tässä hypoteettinen esimerkki.

Conversation-logo

tämä artikkeli Geoff Cumming alun perin ilmestyi keskustelun otsikolla ”One reason so many scientific studies may be wrong” ja on reposted Under use a Creative Commons Attribution NoDerivatives license.

Bruce on vastikään suorittanut tohtorin tutkinnon ja saanut arvostetun apurahan liittyäkseen alansa huippututkimusryhmään. Hänen ensimmäinen kokeilu ei toimi hyvin, mutta Bruce nopeasti tarkentaa menettelyjä ja suorittaa toisen tutkimuksen. Tämä näyttää lupaavammalta, mutta ei silti anna p-arvoa alle.05.

vakuuttuneena siitä, että hän on jonkin jäljillä, Bruce kerää lisää tietoa. Hän päättää pudottaa muutamia tuloksia, jotka näyttivät selvästi kaukana.

sitten hän huomaa, että yksi hänen toimenpiteistään antaa selkeämmän kuvan, joten hän keskittyy siihen. Vielä muutama hienosäätö ja Bruce tunnistaa lopulta hieman yllättävän, mutta todella kiinnostavan efektin, jolla saavutetaan p

Bruce yritti niin kovasti löytää efektin, jonka hän tiesi vaanivan jossain. Hän tunsi myös painetta lyödä p

on vain yksi koppi: vaikutusta ei oikeastaan ollut. Tilastollisesti merkittävästä tuloksesta huolimatta Bruce on julkaissut väärän positiivisen tuloksen.

Bruce tunsi käyttävänsä tieteellistä oivallustaan paljastaakseen vaanivan vaikutuksen, kun hän otti erilaisia askeleita aloitettuaan tutkimuksensa:

  • hän keräsi lisätietoja.
  • hän pudotti joitain poikkeavalta tuntuvia tietoja.
  • hän pudotti joitakin mittojaan ja keskittyi lupaavimpiin.
  • hän analysoi tietoja hieman eri tavalla ja teki vielä muutamia tarkennuksia.

ongelmana on, että kaikki nämä valinnat tehtiin aineiston nähtyään. Bruce saattoi tiedostamattaan valita ja hienosäätää, kunnes sai hankittua vaikeasti saavutettavan pp

Tilastotieteilijöillä on sanonta: Jos kidutat tietoja tarpeeksi, he tunnustavat. Datan näkemisen jälkeen tehdyt valinnat ja hienosäädöt ovat kyseenalaisia tutkimuskäytäntöjä. Näiden käyttäminen, tahallaan tai ei, oikean tilastollisen tuloksen saavuttamiseksi on p-hakkerointi, joka on yksi tärkeä syy siihen, että julkaistut, tilastollisesti merkittävät tulokset voivat olla vääriä positiivisia.

mikä osuus julkaistuista tuloksista on väärin?

tämä on hyvä ja pirullisen hankala kysymys. Kukaan ei tiedä vastausta, joka on todennäköisesti erilainen eri tutkimusaloilla.

vuonna 2015 julkaistiin laaja ja vaikuttava yritys vastata kysymykseen sosiaaliselle ja kognitiiviselle psykologialle. Brian Nosek ja hänen kollegansa Center for Open Science-keskuksessa johtivat Replikability Project: Psychology (Rp:P) – projektia, jossa 100 tutkimusryhmää ympäri maailmaa toteuttivat huolellisen replikoinnin yhdestä 100 julkaistusta tuloksesta. Kaiken kaikkiaan noin 40 toistui melko hyvin, kun taas noin 60 tapauksessa replikaatiotutkimuksissa saavutettiin pienempiä tai paljon pienempiä vaikutuksia.

100 RP: P-replikaatiotutkimuksessa raportoitiin vaikutuksia, jotka olivat keskimäärin vain puolet alkuperäisissä tutkimuksissa ilmoitetuista vaikutuksista. Huolellisesti suoritetut replikaatiot antavat todennäköisesti tarkempia arvioita kuin mahdollisesti p hakkeroidut alkuperäiset tutkimukset, joten voimme päätellä, että alkuperäiset tutkimukset yliarvioivat todelliset vaikutukset keskimäärin kertoimella Kaksi. Hälyttävää!

miten välttää p: n hakkerointi

paras tapa välttää p: n hakkerointi on välttää valintojen tai hienosäätöjen tekemistä datan näkemisen jälkeen. Toisin sanoen, vältä kyseenalaisia tutkimuskäytäntöjä. Useimmissa tapauksissa paras tapa tehdä tämä on käyttää ennakkoilmoitusta.

Ennakkoilmoittautuminen edellyttää, että laadit etukäteen yksityiskohtaisen tutkimussuunnitelman, johon sisältyy aineistoon sovellettava tilastollinen analyysi. Sitten esirekisteröit suunnitelman päivämääräleimalla Open Science Frameworkissa tai muussa Online-rekisterissä.

tämän jälkeen tehdään tutkimus, analysoidaan tiedot suunnitelman mukaisesti ja raportoidaan tulokset riippumatta siitä, mitä ne ovat. Lukijat voivat tarkistaa ennalta rekisteröidyn suunnitelman ja siten luottaa siihen, että analyysi on määritelty etukäteen, eikä P hakkeroitu. Ennakkoilmoittautuminen on monelle tutkijalle haastava uusi ajatus, mutta todennäköisesti tulevaisuuden tie.

estimointi p-arvojen sijaan

kiusaus P-hakkerointiin on yksi p-arvoihin luottamisen suurista haitoista. Toinen on se, että pröystäilijä tykkää sanoa, että efekti on olemassa tai ei ole.

mutta maailma ei ole mustavalkoinen. Tunnistaa lukuisia harmaan sävyjä on paljon parempi käyttää estimointia p-arvojen sijaan. Estimoinnilla pyritään arvioimaan efektin koko – joka voi olla pieni tai suuri, nolla tai jopa negatiivinen. Arvioinnin kannalta väärä positiivinen tulos on arvio, joka on suurempi tai paljon suurempi kuin efektin todellinen arvo.

tehdään hypoteettinen tutkimus hoidon vaikutuksesta. Tutkimuksessa voitaisiin esimerkiksi arvioida, että terapia vähentää ahdistuneisuutta keskimäärin 7 prosenttiyksikköä. Oletetaan, että laskemme tiedoistamme luottamusvälin – epävarmuuden vaihteluvälin molemmin puolin parhaan arviomme -. Tämä kertoo meille, että arviomme 7 on todennäköisesti noin 3 pisteen sisällä ahdistuneisuusasteikolla todellisesta vaikutuksesta-hoidon todellisesta keskimääräisestä hyödystä.

toisin sanoen luottamusväli kertoo, kuinka tarkka arviomme on. Tällaisen arvion ja sen luottamusvälin tunteminen on paljon informatiivisempi kuin mikään p-arvo.

viittaan estimointiin yhtenä ” uusista tilastoista.”Itse tekniikat eivät ole uusia, mutta niiden käyttäminen päätapana tehdä johtopäätöksiä datasta olisi monille tutkijoille uutta ja iso askel eteenpäin. Se auttaisi myös välttämään p-hakkeroinnin aiheuttamia vääristymiä.Keskustelu

Vastaa

Sähköpostiosoitettasi ei julkaista.