kategóriák: kvantitatív

címkék: p Hacking, replikáció, statisztika

nincs p hacking jel

a tudományban replikálhatósági válság van – az azonosítatlan “hamis pozitívumok” még a legfontosabb kutatási folyóiratainkat is áthatják.

a hamis pozitív állítás azt állítja, hogy a hatás akkor létezik, amikor valójában nem. senki sem tudja, hogy a publikált cikkek hány százaléka tartalmaz ilyen helytelen vagy túlértékelt eredményeket, de vannak jelek arra, hogy az arány nem kicsi.

John Ioannidis epidemiológus adta a legjobb magyarázatot erre a jelenségre egy híres cikkben 2005-ben, provokatívan “miért hamis a legtöbb közzétett kutatási eredmény”címmel. Az egyik oka annak, hogy Ioannidis oly sok hamis eredményt adott, “p hackelésnek” nevezték, ami abból adódik, hogy a kutatók úgy érzik, hogy statisztikai szignifikanciát érnek el.

mi a statisztikai szignifikancia?

az adatok következtetéseinek levonásához a kutatók általában a szignifikancia tesztelésre támaszkodnak. Egyszerűen fogalmazva ez a “p érték” kiszámítását jelenti, amely a miénkhez hasonló eredmények valószínűsége, ha valóban nincs hatás. Ha a p érték elég kicsi, az eredményt statisztikailag szignifikánsnak nyilvánítják.

hagyományosan a p értéke kisebb, mint .05 a jelentőség kritériuma. Ha p<értéket jelent.05, Az olvasók valószínűleg azt hiszik, hogy valódi hatást talált. Talán azonban valójában nincs hatása, és hamis pozitív eredményt jelentett.

sok folyóirat csak olyan tanulmányokat tesz közzé, amelyek egy vagy több statisztikailag szignifikáns hatást jelenthetnek. A végzős hallgatók gyorsan megtanulják, hogy elérjék a mitikus p

ezt a nyomást a pp hackelés elérésére.

a P hackelés csábítása

a p hackelés szemléltetésére íme egy hipotetikus példa.

Conversation-logo

ez a cikk Geoff Cumming eredetileg megjelent a beszélgetés cím alatt “az egyik oka annak, hogy sok tudományos tanulmány lehet rossz”, és reposted alatt használja a Creative Commons Attribution NoDerivatives licenc.

Bruce nemrég doktorált, és rangos támogatást kapott, hogy csatlakozzon az egyik legjobb kutatócsoporthoz a területén. Az első kísérlete nem működik jól, de Bruce gyorsan finomítja az eljárásokat, és lefuttat egy második tanulmányt. Ez ígéretesebbnek tűnik, de még mindig nem ad kevesebb p értéket, mint .05.

meggyőződve arról, hogy valamit követ, Bruce több adatot gyűjt. Úgy dönt, hogy néhány eredményt elejt, ami egyértelműen elfordult.

ezután észreveszi, hogy egyik intézkedése tisztább képet ad, ezért erre összpontosít. Még néhány csípés és Bruce végül egy kissé meglepő, de nagyon érdekes hatást azonosít, amely eléri a p

Bruce olyan keményen próbálta megtalálni a hatást, hogy tudta, hogy valahol leselkedik. Ő is érezte a nyomást, hogy elérje p

csak egy fogás van: valójában nem volt hatás. A statisztikailag szignifikáns eredmény ellenére Bruce hamis pozitív eredményt tett közzé.

Bruce úgy érezte, hogy használja a tudományos betekintést, hogy felfedje a lappangó hatása, ahogy különböző lépéseket megkezdése után a tanulmány:

  • további adatokat gyűjtött.
  • elvetett néhány adatot, amely aberráltnak tűnt.
  • néhány intézkedését elvetette, és a legígéretesebbekre összpontosított.
  • kicsit másképp elemezte az adatokat, és néhány további módosítást végzett.

a baj az, hogy ezeket a döntéseket az adatok megtekintése után hozták meg. Bruce may, tudattalanul, már cseresznye szedés-kiválasztása és csípés, amíg megszerezte a megfoghatatlan pp

statisztikusok van egy mondás: Ha a kínzás az adatok elég, akkor bevallja. Az adatok megtekintése után meghozott döntések és módosítások megkérdőjelezhető kutatási gyakorlatok. Ezek használata, szándékosan vagy sem, a megfelelő statisztikai eredmény elérése érdekében a P hackelés, ami az egyik fontos oka annak, hogy a közzétett, statisztikailag szignifikáns eredmények hamis pozitívak lehetnek.

a közzétett eredmények hány százaléka hibás?

ez egy jó kérdés, és ördögien trükkös. Senki sem tudja a választ, ami valószínűleg eltérő a különböző kutatási területeken.

2015-ben nagy és lenyűgöző erőfeszítést tettek a szociális és kognitív pszichológia kérdésének megválaszolására. Brian Nosek és kollégái, a Center For Open Science vezetésével a Replikálhatósági projekt: pszichológia (Rp:P) világszerte 100 kutatócsoporttal végezte el a 100 közzétett eredmény egyikének gondos replikációját. Összességében nagyjából 40 replikált meglehetősen jól, míg körülbelül 60 esetben a replikációs vizsgálatok kisebb vagy sokkal kisebb hatásokat értek el.

a 100 RP:P replikációs vizsgálat olyan hatásokat jelentett, amelyek átlagosan csak fele voltak az eredeti vizsgálatok által jelentett hatásoknak. A gondosan elvégzett replikációk valószínűleg pontosabb becsléseket adnak, mint az esetleg p feltört eredeti tanulmányok, így arra a következtetésre juthatunk, hogy az eredeti tanulmányok túlbecsülték a valódi hatásokat, átlagban, kettes tényező. Ez riasztó!

hogyan kerüljük el a p hackelést

a p hackelés elkerülésének legjobb módja az adatok megtekintése után történő kiválasztás vagy csípés elkerülése. Más szavakkal, kerülje a megkérdőjelezhető kutatási gyakorlatokat. A legtöbb esetben ennek legjobb módja az előzetes regisztráció használata.

az előzetes regisztráció megköveteli, hogy előzetesen készítsen részletes kutatási tervet, beleértve az adatokra alkalmazandó statisztikai elemzést. Ezután előzetesen regisztrálja a tervet, dátumbélyegzővel, az Open Science Framework-EN vagy más online nyilvántartásban.

ezután végezze el a vizsgálatot, elemezze az adatokat a tervnek megfelelően, és jelentse az eredményeket, bármi is legyen az. Az olvasók ellenőrizhetik az előre regisztrált tervet, és így biztosak lehetnek abban, hogy az elemzést előre meghatározták, nem pedig a P hackelt. Az előzetes regisztráció sok kutató számára kihívást jelentő új ötlet, de valószínűleg a jövő útja.

becslés helyett p értékek

a kísértés, hogy p hack egyik nagy hátránya támaszkodva p értékek. A másik az, hogy a prather mintha azt mondaná, hogy egy hatás létezik, vagy nem.

de a világ nem fekete-fehér. A szürke számos árnyalatának felismerése érdekében sokkal jobb a becslést használni a p értékek helyett. A becslés célja egy hatás méretének becslése – amely lehet kicsi vagy nagy, nulla vagy akár negatív is. A becslés szempontjából a hamis pozitív eredmény olyan becslés, amely nagyobb vagy sokkal nagyobb, mint egy hatás valódi értéke.

Vegyünk egy hipotetikus tanulmányt a terápia hatásáról. A tanulmány például becsülheti, hogy a terápia átlagosan 7 ponttal csökkenti a szorongást. Tegyük fel, hogy adatainkból kiszámítunk egy megbízhatósági intervallumot – a bizonytalanság tartományát a legjobb becslésünk mindkét oldalán . Ez azt mondja nekünk, hogy a 7-es becslésünk valószínűleg körülbelül 3 ponton belül van a valódi hatás szorongási skáláján – a terápia valódi átlagos előnyének összege.

más szavakkal, a konfidencia intervallum jelzi, mennyire pontos a becslésünk. Egy ilyen becslés és konfidencia intervallum ismerete sokkal informatívabb, mint bármely p érték.

utalok becslés, mint az egyik ” új statisztika.”Maguk a technikák nem újak, de az adatokból származó következtetések levonásának fő módja sok kutató számára új lenne, és nagy előrelépés lenne. Ez is segít elkerülni a torzulások okozta p Hacker. A Beszélgetés

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.