Categorii: cantitative

Tag – uri: P Hacking, replicare, statistici

nu P hacking semn

există o criză de reproductibilitate în știință-neidentificate „fals pozitive” sunt pătrunde chiar jurnalele noastre de cercetare de top.

un fals pozitiv este o afirmație că există un efect atunci când în realitate nu. nimeni nu știe ce proporție de lucrări publicate conțin astfel de rezultate incorecte sau supraevaluate, dar există semne că proporția nu este mică.

epidemiologul John Ioannidis a dat cea mai bună explicație pentru acest fenomen într-o lucrare celebră din 2005, intitulată provocator „de ce majoritatea rezultatelor cercetării publicate sunt false”. Unul dintre motivele pentru care Ioannidis a dat atât de multe rezultate false a ajuns să fie numit „p hacking”, care apare din presiunea pe care cercetătorii o simt pentru a obține o semnificație statistică.

care este semnificația statistică?

pentru a trage concluzii din date, cercetătorii se bazează de obicei pe testarea semnificației. În termeni simpli, aceasta înseamnă calcularea „valorii p”, care este probabilitatea unor rezultate ca ale noastre dacă într-adevăr nu există niciun efect. Dacă valoarea p este suficient de mică, rezultatul este declarat a fi semnificativ statistic.

în mod tradițional, o valoare p mai mică decât .05 este criteriul semnificației. Dacă raportați un p <.05, cititorii sunt susceptibile de a crede că ați găsit un efect real. Poate că, totuși, nu există niciun efect și ați raportat un fals pozitiv.

multe reviste vor publica doar studii care pot raporta unul sau mai multe efecte semnificative statistic. Studenții absolvenți învață repede că realizarea mitic p

această presiune pentru a realiza PP hacking.

nada de p hacking

pentru a ilustra p hacking, aici este un exemplu ipotetic.

Conversation-logo

acest articol de Geoff Cumming a apărut inițial la conversație sub titlul „Un motiv pentru care atât de multe studii științifice pot fi greșite” și este repostat sub utilizați o licență Creative Commons Attribution NoDerivatives.

Bruce a absolvit recent un doctorat și a obținut un grant de prestigiu pentru a se alătura uneia dintre echipele de cercetare de top din domeniul său. Primul său experiment nu funcționează bine, dar Bruce rafinează rapid procedurile și conduce un al doilea studiu. Acest lucru pare mai promițător, dar încă nu dă o valoare p mai mică decât .05.

convins că este pe ceva, Bruce adună mai multe date. El decide să renunțe la câteva dintre rezultate, care păreau în mod clar departe.

el observă apoi că una dintre măsurile sale oferă o imagine mai clară, așa că se concentrează asupra acestui lucru. Alte câteva modificări și Bruce identifică în cele din urmă un efect ușor surprinzător, dar cu adevărat interesant, care atinge p

Bruce a încercat atât de mult să găsească efectul pe care știa că îl pândește undeva. De asemenea, simțea presiunea de a lovi p

există o singură captură: de fapt nu a existat niciun efect. În ciuda rezultatului semnificativ statistic, Bruce a publicat un fals pozitiv.

Bruce a simțit că își folosește cunoștințele științifice pentru a dezvălui efectul ascuns în timp ce a făcut diverse pași după ce și-a început studiul:

  • el a colectat date suplimentare.
  • a scăpat câteva date care păreau aberante.
  • a renunțat la unele dintre măsurile sale și s-a concentrat pe cele mai promițătoare.
  • el a analizat datele puțin diferit și a făcut câteva modificări suplimentare.

problema este că toate aceste alegeri au fost făcute după ce au văzut datele. Bruce poate, inconștient, au fost cireșe-cules-selectarea și tweaking până când a obținut evaziv PP

statisticienii au o zicală: Dacă tortura datele suficient, ei vor mărturisi. Alegerile și modificările făcute după ce au văzut datele sunt practici de cercetare discutabile. Folosind aceste, în mod deliberat sau nu, pentru a obține rezultatul statistic corect este p hacking, care este un motiv important care a publicat, rezultate semnificative statistic pot fi fals pozitive.

ce procent din rezultatele publicate sunt greșite?

aceasta este o întrebare bună, și una diabolic de complicată. Nimeni nu știe răspunsul, care este probabil să fie diferit în diferite domenii de cercetare.

un efort mare și impresionant de a răspunde la întrebarea pentru psihologia socială și cognitivă a fost publicat în 2015. Condus de Brian Nosek și colegii săi de la Centrul pentru științe deschise, proiectul de Replicabilitate: Psihologie (RP:p) a avut 100 de grupuri de cercetare din întreaga lume, fiecare realizând o replicare atentă a unuia dintre cele 100 de rezultate publicate. În general, aproximativ 40 s-au replicat destul de bine, în timp ce în aproximativ 60 de cazuri studiile de replicare au obținut efecte mai mici sau mult mai mici.

studiile de replicare 100 RP:P au raportat efecte care au fost, în medie, doar jumătate din dimensiunea efectelor raportate de studiile originale. Replicările efectuate cu atenție oferă probabil estimări mai precise decât studiile originale piratate, astfel încât am putea concluziona că studiile originale au supraestimat efectele reale cu, în medie, un factor de doi. E alarmant!

Cum de a evita p hacking

cel mai bun mod de a evita p hacking este de a evita orice selecție sau trucuri după ce a văzut datele. Cu alte cuvinte, evitați practicile de cercetare discutabile. În majoritatea cazurilor, cel mai bun mod de a face acest lucru este să utilizați preînregistrarea.

preînregistrarea necesită pregătirea în avans a unui plan de cercetare detaliat, inclusiv analiza statistică care trebuie aplicată datelor. Apoi preînregistrați planul, cu ștampila de dată, la Open Science Framework sau la un alt registru online.

apoi efectuați studiul, analizați datele în conformitate cu planul și raportați rezultatele, oricare ar fi acestea. Cititorii pot verifica planul preînregistrat și astfel pot fi siguri că analiza a fost specificată în avans și nu P hacked. Preînregistrarea este o idee nouă provocatoare pentru mulți cercetători, dar probabil să fie calea viitorului.

estimare mai degrabă decât valorile p

tentația de a p hack este unul dintre marile dezavantaje ale bazându-se pe valorile p. Un alt lucru este că prather ca spune un efect există sau nu.

dar lumea nu este alb-negru. Pentru a recunoaște numeroasele nuanțe de gri, este mult mai bine să folosiți estimarea, mai degrabă decât valorile P. Scopul estimării este de a estima dimensiunea unui efect-care poate fi mic sau mare, zero sau chiar negativ. În termeni de estimare, un rezultat fals pozitiv este o estimare care este mai mare sau mult mai mare decât valoarea reală a unui efect.

să luăm un studiu ipotetic asupra impactului terapiei. Studiul ar putea, de exemplu, să estimeze că terapia dă, în medie, o scădere cu 7 puncte a anxietății. Să presupunem că calculăm din datele noastre un interval de încredere – o gamă de incertitudine de fiecare parte a celei mai bune estimări – a . Acest lucru ne spune că estimarea noastră de 7 este, cel mai probabil, în aproximativ 3 puncte pe scara de anxietate a efectului adevărat – adevărata valoare medie a beneficiului terapiei.

cu alte cuvinte, intervalul de încredere indică cât de precisă este estimarea noastră. Cunoașterea unei astfel de estimări și a intervalului său de încredere este mult mai informativă decât orice valoare P.

mă refer la estimare ca fiind una dintre „noile statistici.”Tehnicile în sine nu sunt noi, dar utilizarea lor ca principală modalitate de a trage concluzii din date ar fi pentru mulți cercetători noi și un mare pas înainte. De asemenea, ar ajuta la evitarea distorsiunilor cauzate de hacking-ul P.Conversația

Lasă un răspuns

Adresa ta de email nu va fi publicată.