Categorias: Quantitativas

Etiquetas: p Hacking, Replicação, Estatísticas

Não P hacking sinal

Há um replicabilidade crise na ciência – não identificado “falsos positivos” são permeia até mesmo a nossa topo de periódicos de pesquisa.

Um falso positivo é uma alegação de que um efeito existe quando, na verdade, não. Ninguém sabe qual a proporção de artigos publicados contêm tais incorreto ou exagerada resultados, mas há sinais de que a proporção não é pequena.

O epidemiologista John Ioannidis deu a melhor explicação para este fenômeno em um famoso artigo em 2005, provocativamente intitulada “Por maioria publicado os resultados de pesquisas são falsas”. Uma das razões que Ioannidis deu para tantos resultados falsos veio a ser chamado de “P hacking”, que surge da pressão que os pesquisadores sentem para alcançar significado estatístico.

Qual é o significado estatístico?

para tirar conclusões a partir de dados, os investigadores geralmente dependem de testes de significância. Em termos simples, isto significa calcular o “valor p”, que é a probabilidade de resultados como o nosso se realmente não há efeito. Se o valor de p for suficientemente pequeno, o resultado é declarado estatisticamente significativo.

tradicionalmente, um valor p inferior a .05 é o critério de significância. Se comunicar um p <.05, é provável que os leitores acreditem que você encontrou um efeito real. Talvez, no entanto, não haja, de facto, qualquer efeito e o Senhor Comissário deu a conhecer um falso positivo.

muitas revistas publicarão apenas estudos que podem relatar um ou mais efeitos estatisticamente significativos. Os estudantes de pós-graduação rapidamente aprendem que alcançar o mítico p

esta pressão para alcançar PP hacking.

the lure of p hacking

To illustrate p hacking, here is a hipotetic example.

Conversation-logo

este artigo de Geoff Cumming apareceu originalmente na conversa sob o título “uma razão pela qual muitos estudos científicos podem estar errados” e é reposto sob o uso de uma licença Creative Commons Attribution NoDerivatives.Bruce recentemente completou um PhD e obteve uma bolsa de prestígio para se juntar a uma das melhores equipes de pesquisa em sua área. Sua primeira experiência não funciona bem, mas Bruce rapidamente refina os procedimentos e executa um segundo estudo. Isto parece mais promissor, mas ainda não dá um valor p inferior a .05.Convencido de que descobriu algo, Bruce recolhe mais dados. Ele decide deixar cair alguns dos resultados, o que parecia claramente fora.Ele então percebe que uma de suas medidas dá uma imagem mais clara, então ele se concentra nisso. Mais alguns ajustes e Bruce finalmente identifica um efeito um pouco surpreendente, mas realmente interessante que atinge p

Bruce tentou tanto encontrar o efeito que ele sabia que estava escondido em algum lugar. Ele também estava sentindo a pressão para atingir p

há apenas uma captura: na verdade, não houve efeito. Apesar do resultado estatisticamente significativo, Bruce publicou um falso positivo.Bruce sentiu que estava a usar a sua visão científica para revelar o efeito de espreguiçadeira quando tomou vários passos após iniciar o seu estudo.:

  • ele coletou mais dados.
  • ele deixou cair alguns dados que pareciam aberrantes.Ele deixou cair algumas de suas medidas e focou-se nas mais promissoras.
  • ele analisou os dados de forma um pouco diferente e fez alguns ajustes adicionais.O problema é que todas estas escolhas foram feitas depois de ver os dados. Bruce may, inconscientemente, foi selecionando e ajustando cerejeiras até que ele obteve a elusiva pp

    os estatísticos têm um ditado: Se você torturar os dados o suficiente, eles confessarão. Escolhas e ajustes feitos depois de ver os dados são práticas de pesquisa questionáveis. Usando estes, deliberadamente ou não, para alcançar o resultado estatístico certo é p hacking, que é uma razão importante que publicou, resultados estatisticamente significantes podem ser falsos positivos.

    que proporção de resultados publicados está errada?Esta é uma boa pergunta, e uma diabolicamente complicada. Ninguém sabe a resposta, que é provável que seja diferente em diferentes áreas de investigação.Um grande e impressionante esforço para responder à questão da psicologia social e cognitiva foi publicado em 2015. Liderado por Brian Nosek e seus colegas no Center for Open Science, O projeto de replicabilidade: Psicologia (RP:P) teve 100 grupos de pesquisa em todo o mundo, cada um realizando uma replicação cuidadosa de um dos 100 resultados publicados. Globalmente, cerca de 40 replicaram bastante bem, enquanto em cerca de 60 casos os estudos de replicação obtiveram efeitos menores ou muito menores.

    os estudos de replicação de 100 PR:P relataram efeitos que eram, em média, apenas metade da dimensão dos efeitos notificados pelos estudos originais. O cuidadosamente conduzida replicações são, provavelmente, dando estimativas mais precisas do que, possivelmente, p hackeado estudos originais, por isso podemos concluir que os estudos originais superestimado efeitos de verdade por, em média, um fator de dois. Isso é alarmante!

    como evitar p hacking

    a melhor maneira de evitar p hacking é evitar fazer qualquer seleção ou ajustes após ver os dados. Por outras palavras, evitar práticas de investigação questionáveis. Na maioria dos casos, a melhor maneira de fazer isso é usar pré-registo.

    pré-inscrição requer que você prepare previamente um plano de pesquisa detalhado, incluindo a análise estatística a ser aplicada aos dados. Então você pré-registra o plano, com data stamp, no Open Science Framework ou em algum outro registro online.

    em seguida, realizar o estudo, analisar os dados de acordo com o plano, e relatar os resultados, sejam eles quais forem. Os leitores podem verificar o plano pré-registrado e, assim, estar confiantes de que a análise foi especificada com antecedência, e não p hackeado. A pré-inscrição é uma nova ideia desafiadora para muitos investigadores, mas é provável que seja o caminho do futuro.

    Estimation rather than p values

    The temptation to p hack is one of the big disabilities of relying on p values. Outra é que o prather gosta de dizer que um efeito existe ou não.

    mas o mundo não é preto e branco. Para reconhecer os inúmeros tons de cinza é muito melhor usar estimativas em vez de valores de p. O objetivo com a estimativa é estimar o tamanho de um efeito – que pode ser pequeno ou grande, zero, ou mesmo negativo. Em termos de estimativa, um resultado falso positivo é uma estimativa que é maior ou muito maior do que o verdadeiro valor de um efeito.Vamos fazer um estudo hipotético sobre o impacto da terapia. O estudo pode, por exemplo, estimar que a terapia dá, em média, uma diminuição de 7 pontos na ansiedade. Suponha que calculamos a partir de nossos dados um intervalo de confiança – uma gama de incerteza de cada lado de nossa melhor estimativa – de . Isto nos diz que nossa estimativa de 7 é, muito provavelmente, dentro de cerca de 3 pontos na escala de ansiedade do verdadeiro efeito – a verdadeira quantidade média de benefício da terapia.Por outras palavras, o intervalo de confiança indica a precisão da nossa estimativa. Conhecer tal estimativa e seu intervalo de confiança é muito mais informativo do que qualquer valor de p.

    refiro-me à estimativa como uma das “novas estatísticas.”As técnicas em si não são novas, mas usá-las como a principal maneira de tirar conclusões dos dados seria para muitos pesquisadores ser novo, e um grande passo em frente. Também ajudaria a evitar as distorções causadas pela pirataria informática.A Conversa

Deixe uma resposta

O seu endereço de email não será publicado.