Catégories: Quantitative

Tags: p Hacking, Réplication, Statistiques

 Aucun signe P hacking

Il y a une crise de réplicabilité dans la science – des « faux positifs » non identifiés envahissent même nos meilleures revues de recherche.

Un faux positif est une affirmation selon laquelle un effet existe alors qu’en réalité il ne l’est pas.Personne ne sait quelle proportion d’articles publiés contient de tels résultats incorrects ou surestimés, mais il y a des signes que la proportion n’est pas faible.

L’épidémiologiste John Ioannidis a donné la meilleure explication à ce phénomène dans un article célèbre en 2005, intitulé de manière provocante « Pourquoi la plupart des résultats de recherche publiés sont faux ». L’une des raisons pour lesquelles Ioannidis a donné tant de faux résultats a été appelée « piratage p », qui découle de la pression que ressentent les chercheurs pour atteindre une signification statistique.

Quelle est la signification statistique?

Pour tirer des conclusions des données, les chercheurs s’appuient généralement sur des tests de signification. En termes simples, cela signifie calculer la « valeur p », qui est la probabilité de résultats comme le nôtre s’il n’y a vraiment aucun effet. Si la valeur de p est suffisamment faible, le résultat est déclaré statistiquement significatif.

Traditionnellement, une valeur p inférieure à.05 est le critère de signification. Si vous signalez un p <.05, les lecteurs sont susceptibles de croire que vous avez trouvé un effet réel. Peut-être, cependant, il n’y a en fait aucun effet et vous avez signalé un faux positif.

De nombreuses revues ne publieront que des études pouvant rapporter un ou plusieurs effets statistiquement significatifs. Les étudiants diplômés apprennent rapidement que la réalisation du mythique p

Cette pression pour atteindre le piratage pp.

L’attrait du piratage p

Pour illustrer le piratage p, voici un exemple hypothétique.

Conversation-logo

Cet article de Geoff Cumming est apparu à l’origine lors de la Conversation sous le titre « Une raison pour laquelle tant d’études scientifiques peuvent être fausses » et est republié sous utiliser une licence Creative Commons Attribution NoDerivatives.

Bruce a récemment terminé un doctorat et a obtenu une bourse prestigieuse pour rejoindre l’une des meilleures équipes de recherche dans son domaine. Sa première expérience ne fonctionne pas bien, mais Bruce affine rapidement les procédures et mène une deuxième étude. Cela semble plus prometteur, mais ne donne toujours pas une valeur p inférieure à.05.

Convaincu qu’il est sur quelque chose, Bruce rassemble plus de données. Il décide de laisser tomber quelques-uns des résultats, qui semblaient clairement loin.

Il remarque alors qu’une de ses mesures donne une image plus claire, il se concentre donc sur cela. Quelques ajustements supplémentaires et Bruce identifie enfin un effet légèrement surprenant mais vraiment intéressant qui atteint p

Bruce a essayé si fort de trouver l’effet qu’il savait se cacher quelque part. Il ressentait également la pression de frapper p

Il n’y a qu’un seul hic: il n’y a en fait eu aucun effet. Malgré le résultat statistiquement significatif, Bruce a publié un faux positif.

Bruce a senti qu’il utilisait sa perspicacité scientifique pour révéler l’effet caché alors qu’il prenait diverses mesures après avoir commencé son étude:

  • Il a recueilli d’autres données.
  • Il a laissé tomber des données qui semblaient aberrantes.
  • Il a abandonné certaines de ses mesures et s’est concentré sur les plus prometteuses.
  • Il a analysé les données un peu différemment et a fait quelques ajustements supplémentaires.

Le problème est que tous ces choix ont été faits après avoir vu les données. Bruce may, inconsciemment, a choisi et peaufiné jusqu’à ce qu’il obtienne l’insaisissable pp

Les statisticiens ont un dicton: si vous torturez suffisamment les données, ils avoueront. Les choix et les ajustements effectués après avoir vu les données sont des pratiques de recherche douteuses. L’utilisation de ceux-ci, délibérément ou non, pour obtenir le bon résultat statistique est le piratage de p, qui est l’une des raisons importantes pour lesquelles les résultats publiés et statistiquement significatifs peuvent être des faux positifs.

Quelle proportion des résultats publiés sont erronés ?

C’est une bonne question, et une question diaboliquement délicate. Personne ne connaît la réponse, qui est susceptible d’être différente selon les domaines de recherche.

Un effort important et impressionnant pour répondre à la question de la psychologie sociale et cognitive a été publié en 2015. Dirigé par Brian Nosek et ses collègues du Center for Open Science, le projet de réplicabilité: Psychologie (RP:P) a permis à 100 groupes de recherche du monde entier de reproduire soigneusement l’un des 100 résultats publiés. Dans l’ensemble, environ 40 se sont assez bien reproduites, alors que dans environ 60 cas, les études de réplication ont obtenu des effets plus petits ou beaucoup plus petits.

Les études de réplication de 100 RP:P ont rapporté des effets qui n’étaient, en moyenne, que la moitié des effets rapportés par les études originales. Les réplications soigneusement menées donnent probablement des estimations plus précises que les études originales éventuellement piratées, nous pourrions donc conclure que les études originales surestimaient les effets réels d’un facteur deux en moyenne. C’est alarmant !

Comment éviter le piratage de p

La meilleure façon d’éviter le piratage de p est d’éviter toute sélection ou modification après avoir vu les données. En d’autres termes, évitez les pratiques de recherche douteuses. Dans la plupart des cas, la meilleure façon de le faire est d’utiliser la préinscription.

La préinscription nécessite de préparer à l’avance un plan de recherche détaillé, y compris l’analyse statistique à appliquer aux données. Ensuite, vous préinscrivez le plan, avec un tampon dateur, dans le cadre de la Science ouverte ou dans un autre registre en ligne.

Réalisez ensuite l’étude, analysez les données conformément au plan et rapportez les résultats, quels qu’ils soient. Les lecteurs peuvent vérifier le plan préenregistré et ainsi être sûrs que l’analyse a été spécifiée à l’avance et non piratée. La préinscription est une nouvelle idée difficile pour de nombreux chercheurs, mais qui sera probablement la voie de l’avenir.

Estimation plutôt que des valeurs p

La tentation de pirater p est l’un des gros inconvénients de s’appuyer sur des valeurs p. Une autre est que l’on aime dire qu’un effet existe ou qu’il n’existe pas.

Mais le monde n’est pas noir et blanc. Pour reconnaître les nombreuses nuances de gris, il est préférable d’utiliser l’estimation plutôt que les valeurs p. L’objectif de l’estimation est d’estimer la taille d’un effet – qui peut être petit ou grand, nul, voire négatif. En termes d’estimation, un résultat faussement positif est une estimation qui est plus grande ou beaucoup plus grande que la valeur réelle d’un effet.

Prenons une étude hypothétique sur l’impact de la thérapie. L’étude pourrait, par exemple, estimer que la thérapie donne, en moyenne, une diminution de 7 points de l’anxiété. Supposons que nous calculions à partir de nos données un intervalle de confiance – une plage d’incertitude de chaque côté de notre meilleure estimation – de. Cela nous indique que notre estimation de 7 est, très probablement, à environ 3 points de l’échelle d’anxiété du véritable effet – le véritable bénéfice moyen de la thérapie.

En d’autres termes, l’intervalle de confiance indique la précision de notre estimation. Connaître une telle estimation et son intervalle de confiance est beaucoup plus informatif que n’importe quelle valeur p.

J’appelle l’estimation l’une des « nouvelles statistiques. »Les techniques elles-mêmes ne sont pas nouvelles, mais les utiliser comme principal moyen de tirer des conclusions à partir des données serait pour de nombreux chercheurs une nouveauté et un grand pas en avant. Cela aiderait également à éviter les distorsions causées par le piratage p. La conversation

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.