Categorías: Cuantitativo

Etiquetas: p Hacking, Replicación, Estadísticas

 Sin signo de P hacking

Hay una crisis de replicabilidad en la ciencia: los «falsos positivos» no identificados están invadiendo incluso nuestras principales revistas de investigación.

Un falso positivo es una afirmación de que existe un efecto cuando en realidad no lo hace. Nadie sabe qué proporción de artículos publicados contienen resultados incorrectos o exagerados, pero hay signos de que la proporción no es pequeña.

El epidemiólogo John Ioannidis dio la mejor explicación para este fenómeno en un famoso artículo en 2005, titulado provocativamente «Por qué la mayoría de los resultados de investigación publicados son falsos». Una de las razones que Ioannidis dio para tantos resultados falsos ha llegado a llamarse «p hacking», que surge de la presión que los investigadores sienten para lograr una significación estadística.

¿Qué es la significación estadística?

Para extraer conclusiones de los datos, los investigadores generalmente se basan en pruebas de significación. En términos simples, esto significa calcular el «valor p», que es la probabilidad de resultados como el nuestro si realmente no hay efecto. Si el valor de p es suficientemente pequeño, el resultado se declara estadísticamente significativo.

Tradicionalmente, un valor de p inferior a .05 es el criterio de significación. Si reporta un p<.05, es probable que los lectores crean que ha encontrado un efecto real. Tal vez, sin embargo, en realidad no hay efecto y usted ha reportado un falso positivo.

Muchas revistas solo publicarán estudios que puedan reportar uno o más efectos estadísticamente significativos. Los estudiantes de posgrado aprenden rápidamente que lograr el mítico p

Esta presión para lograr el hacking de pp.

El atractivo de p hacking

Para ilustrar p hacking, aquí hay un ejemplo hipotético.

Conversation-logo

Este artículo de Geoff Cumming apareció originalmente en The Conversation bajo el título «Una razón por la que tantos estudios científicos pueden estar equivocados» y se vuelve a publicar bajo use a Creative Commons Attribution NoDerivatives license.

Bruce ha completado recientemente un doctorado y ha obtenido una prestigiosa beca para unirse a uno de los mejores equipos de investigación en su campo. Su primer experimento no funciona bien, pero Bruce perfecciona rápidamente los procedimientos y realiza un segundo estudio. Esto parece más prometedor, pero aún así no da un valor de p menor que .05.

Convencido de que está en algo, Bruce reúne más datos. Decide dejar algunos de los resultados, que se veían claramente muy lejos.

Luego se da cuenta de que una de sus medidas da una imagen más clara, por lo que se centra en eso. Unos cuantos ajustes más y Bruce finalmente identifica un efecto ligeramente sorprendente pero realmente interesante que logra p

Bruce se esforzó tanto por encontrar el efecto que sabía que estaba al acecho en algún lugar. También estaba sintiendo la presión de golpear p

Solo hay un problema: en realidad no hubo efecto. A pesar del resultado estadísticamente significativo, Bruce ha publicado un falso positivo.

Bruce sintió que estaba usando su perspicacia científica para revelar el efecto oculto mientras daba varios pasos después de comenzar su estudio:

  • Recopiló más datos.
  • Dejó caer algunos datos que parecían aberrantes.
  • Abandonó algunas de sus medidas y se centró en las más prometedoras.
  • Analizó los datos de manera un poco diferente e hizo algunos ajustes adicionales.

El problema es que todas estas elecciones se hicieron después de ver los datos. Bruce may, inconscientemente, ha estado escogiendo, seleccionando y retocando hasta que obtuvo el esquivo pp

Los estadísticos tienen un dicho: si torturas los datos lo suficiente, confesarán. Las elecciones y los ajustes hechos después de ver los datos son prácticas de investigación cuestionables. El uso de estos, deliberadamente o no, para lograr el resultado estadístico correcto es el hacking p, que es una razón importante por la que los resultados publicados y estadísticamente significativos pueden ser falsos positivos.

¿Qué proporción de resultados publicados son incorrectos?

Esta es una buena pregunta, y una diabólicamente complicada. Nadie sabe la respuesta, que es probable que sea diferente en diferentes campos de investigación.

En 2015 se publicó un gran e impresionante esfuerzo para responder a la pregunta de psicología social y cognitiva. Dirigido por Brian Nosek y sus colegas del Centro para la Ciencia Abierta, el Proyecto de Replicabilidad: Psicología (RP:P) contó con 100 grupos de investigación de todo el mundo, cada uno de los cuales llevó a cabo una cuidadosa replicación de uno de los 100 resultados publicados. En total, aproximadamente 40 se replicaron bastante bien, mientras que en alrededor de 60 casos los estudios de replicación obtuvieron efectos más pequeños o mucho más pequeños.

Los 100 estudios de replicación RP:P notificaron efectos que, en promedio, eran solo la mitad de los efectos notificados por los estudios originales. Las repeticiones cuidadosamente realizadas probablemente están dando estimaciones más precisas que los estudios originales posiblemente pirateados, por lo que podríamos concluir que los estudios originales sobreestimaron los efectos reales, en promedio, un factor de dos. Eso es alarmante!

Cómo evitar la piratería p

La mejor manera de evitar la piratería p es evitar hacer cualquier selección o ajuste después de ver los datos. En otras palabras, evite prácticas de investigación cuestionables. En la mayoría de los casos, la mejor manera de hacerlo es utilizar la preinscripción.

La preinscripción requiere que prepare de antemano un plan de investigación detallado, incluido el análisis estadístico que se aplicará a los datos. Luego, prerregistras el plan, con sello de fecha, en el Marco de Open Science o en algún otro registro en línea.

A continuación, realice el estudio, analice los datos de acuerdo con el plan e informe de los resultados, cualesquiera que sean. Los lectores pueden consultar el plan preinscrito y, por lo tanto, estar seguros de que el análisis se especificó de antemano y no se pirateó. La preinscripción es una nueva idea desafiante para muchos investigadores, pero probablemente sea el camino del futuro.

Estimación en lugar de valores de p

La tentación de hackear p es una de las grandes desventajas de confiar en valores de p. Otra es que el parloteo como decir que un efecto existe o no.

Pero el mundo no es blanco y negro. Para reconocer los numerosos tonos de gris, es mucho mejor usar la estimación en lugar de los valores de p. El objetivo de la estimación es estimar el tamaño de un efecto, que puede ser pequeño o grande, cero o incluso negativo. En términos de estimación, un resultado positivo falso es una estimación que es mayor o mucho mayor que el valor real de un efecto.

Tomemos un estudio hipotético sobre el impacto de la terapia. El estudio podría, por ejemplo, estimar que la terapia da, en promedio, una disminución de 7 puntos en la ansiedad. Supongamos que calculamos a partir de nuestros datos un intervalo de confianza, un rango de incertidumbre a cada lado de nuestra mejor estimación, de . Esto nos dice que nuestra estimación de 7 es, muy probablemente, dentro de unos 3 puntos en la escala de ansiedad del efecto verdadero, la cantidad promedio real de beneficio de la terapia.

En otras palabras, el intervalo de confianza indica cuán precisa es nuestra estimación. Conocer tal estimación y su intervalo de confianza es mucho más informativo que cualquier valor p.

Me refiero a la estimación como una de las «nuevas estadísticas.»Las técnicas en sí no son nuevas, pero usarlas como la forma principal de extraer conclusiones de los datos sería para muchos investigadores algo nuevo y un gran paso adelante. También ayudaría a evitar las distorsiones causadas por la piratería p.La Conversación

Deja una respuesta

Tu dirección de correo electrónico no será publicada.