Categorie: Quantitative

Tag: p Hacking, Replication, Statistics

Nessun segno di hacking P

C’è una crisi di replicabilità nella scienza – i “falsi positivi” non identificati pervadono anche le nostre migliori riviste di ricerca.

Un falso positivo è un’affermazione che un effetto esiste quando in realtà non lo fa. Nessuno sa quale proporzione di documenti pubblicati contenga risultati così errati o sopravvalutati, ma ci sono segni che la proporzione non è piccola.

L’epidemiologo John Ioannidis ha dato la migliore spiegazione per questo fenomeno in un famoso articolo nel 2005, provocatoriamente intitolato “Perché la maggior parte dei risultati della ricerca pubblicati sono falsi”. Uno dei motivi per cui Ioannidis ha dato così tanti risultati falsi è stato chiamato “p hacking”, che deriva dalla pressione che i ricercatori sentono per ottenere un significato statistico.

Che cos’è la significatività statistica?

Per trarre conclusioni dai dati, i ricercatori di solito si affidano a test di significatività. In termini semplici, questo significa calcolare il “valore p”, che è la probabilità di risultati come il nostro se non c’è davvero alcun effetto. Se il valore p è sufficientemente piccolo, il risultato è dichiarato statisticamente significativo.

Tradizionalmente, un valore p inferiore a .05 è il criterio per il significato. Se si segnala un p <.05, i lettori sono propensi a credere di aver trovato un effetto reale. Forse, tuttavia, non c’è in realtà alcun effetto e hai segnalato un falso positivo.

Molte riviste pubblicheranno solo studi che possono riportare uno o più effetti statisticamente significativi. Studenti laureati imparano rapidamente che il raggiungimento del mitico p

Questa pressione per raggiungere pp hacking.

Il richiamo di p hacking

Per illustrare p hacking, ecco un esempio ipotetico.

Conversation-logo

Questo articolo di Geoff Cumming originariamente apparso alla conversazione sotto il titolo “Una ragione così tanti studi scientifici possono essere sbagliato”ed è ripubblicato sotto utilizzare una licenza Creative Commons Attribuzione NoDerivatives.

Bruce ha recentemente completato un dottorato di ricerca e ha ottenuto una prestigiosa borsa di studio per entrare a far parte di uno dei migliori team di ricerca nel suo campo. Il suo primo esperimento non funziona bene, ma Bruce affina rapidamente le procedure e gestisce un secondo studio. Questo sembra più promettente, ma non dà ancora un valore p inferiore a .05.

Convinto di essere su qualcosa, Bruce raccoglie più dati. Decide di abbandonare alcuni dei risultati, che sembravano chiaramente lontani.

Nota quindi che una delle sue misure fornisce un’immagine più chiara, quindi si concentra su questo. Qualche altra modifica e Bruce finalmente identifica un effetto leggermente sorprendente ma davvero interessante che raggiunge p

Bruce ha cercato così duramente di trovare l’effetto che sapeva fosse in agguato da qualche parte. Stava anche sentendo la pressione per colpire p

C’è solo un fermo: in realtà non c’era alcun effetto. Nonostante il risultato statisticamente significativo, Bruce ha pubblicato un falso positivo.

Bruce sentiva che stava usando la sua intuizione scientifica per rivelare l’effetto in agguato mentre faceva vari passi dopo aver iniziato il suo studio:

  • Ha raccolto ulteriori dati.
  • Ha lasciato cadere alcuni dati che sembravano aberranti.
  • Ha abbandonato alcune delle sue misure e si è concentrato sui più promettenti.
  • Ha analizzato i dati in modo leggermente diverso e ha apportato alcune ulteriori modifiche.

Il problema è che tutte queste scelte sono state fatte dopo aver visto i dati. Bruce may, inconsciamente, è stato cherry-picking-selezione e tweaking fino a quando non ha ottenuto l’inafferrabile pp

Gli statistici hanno un detto: se torturi abbastanza i dati, confesseranno. Le scelte e le modifiche apportate dopo aver visto i dati sono pratiche di ricerca discutibili. Utilizzando questi, deliberatamente o meno, per ottenere il giusto risultato statistico è p hacking, che è una ragione importante che ha pubblicato, risultati statisticamente significativi possono essere falsi positivi.

Quale percentuale di risultati pubblicati è errata?

Questa è una buona domanda, e una diabolicamente complicata. Nessuno conosce la risposta, che è probabile che sia diversa in diversi campi di ricerca.

Un grande e impressionante sforzo per rispondere alla domanda per la psicologia sociale e cognitiva è stato pubblicato nel 2015. Guidato da Brian Nosek e dai suoi colleghi del Center for Open Science, il Replicability Project:Psychology (RP: P) ha avuto 100 gruppi di ricerca in tutto il mondo che hanno eseguito un’attenta replica di uno dei 100 risultati pubblicati. Nel complesso, circa 40 hanno replicato abbastanza bene, mentre in circa 60 casi gli studi di replicazione hanno ottenuto effetti più piccoli o molto più piccoli.

I 100 studi di replicazione RP:P hanno riportato effetti che erano, in media, solo la metà degli effetti riportati dagli studi originali. Le repliche attentamente condotte stanno probabilmente dando stime più accurate rispetto agli studi originali possibilmente hackerati, quindi potremmo concludere che gli studi originali sovrastimavano gli effetti reali, in media, di un fattore due. E ‘ allarmante!

Come evitare p hacking

Il modo migliore per evitare p hacking è quello di evitare di fare qualsiasi selezione o modifiche dopo aver visto i dati. In altre parole, evitare pratiche di ricerca discutibili. Nella maggior parte dei casi, il modo migliore per farlo è usare la preregistrazione.

La preregistrazione richiede di preparare in anticipo un piano di ricerca dettagliato, compresa l’analisi statistica da applicare ai dati. Poi si preregistrare il piano, con data timbro, presso il framework Open Science o qualche altro registro on-line.

Quindi eseguire lo studio, analizzare i dati in conformità con il piano e riferire i risultati, qualunque essi siano. I lettori possono controllare il piano preregistrato e quindi essere sicuri che l’analisi è stata specificata in anticipo, e non p violato. La preregistrazione è una nuova idea stimolante per molti ricercatori, ma probabilmente sarà la via del futuro.

Stima piuttosto che valori p

La tentazione di hackerare p è uno dei grandi svantaggi di affidarsi ai valori p. Un altro è che al prather piace dire che un effetto esiste o no.

Ma il mondo non è in bianco e nero. Per riconoscere le numerose sfumature di grigio è molto meglio usare la stima piuttosto che i valori P. Lo scopo della stima è stimare la dimensione di un effetto, che può essere piccolo o grande, zero o addirittura negativo. In termini di stima, un risultato falso positivo è una stima più grande o molto più grande del valore reale di un effetto.

Prendiamo uno studio ipotetico sull’impatto della terapia. Lo studio potrebbe, ad esempio, stimare che la terapia dia, in media, una diminuzione di 7 punti nell’ansia. Supponiamo di calcolare dai nostri dati un intervallo di confidenza – un intervallo di incertezza su entrambi i lati della nostra migliore stima – di . Questo ci dice che la nostra stima di 7 è, molto probabilmente, entro circa 3 punti sulla scala di ansia del vero effetto – la vera quantità media di beneficio della terapia.

In altre parole, l’intervallo di confidenza indica quanto è precisa la nostra stima. Conoscere una tale stima e il suo intervallo di confidenza è molto più informativo di qualsiasi valore P.

Mi riferisco alla stima come una delle ” nuove statistiche.”Le tecniche stesse non sono nuove, ma usarle come il modo principale per trarre conclusioni dai dati sarebbe per molti ricercatori nuovo e un grande passo avanti. Sarebbe anche aiutare a evitare le distorsioni causate da p hacking. La conversazione

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.