Kategorie: kvantitativní

tagy: P Hacking, replikace, Statistika

 No p hacking sign

ve vědě je krize replikovatelnosti-neidentifikované „falešné pozitivy“prostupují i našimi špičkovými výzkumnými časopisy –

falešně pozitivní je tvrzení, že efekt existuje, když ve skutečnosti neexistuje. nikdo neví, jaký podíl publikovaných článků obsahuje takové nesprávné nebo nadhodnocené výsledky, ale existují náznaky, že tento podíl není malý.

epidemiolog John Ioannidis dal nejlepší vysvětlení tohoto jevu ve slavném článku v roce 2005, provokativně nazvaném „proč je většina publikovaných výsledků výzkumu nepravdivá“. Jeden z důvodů, proč Ioannidis dal tolik falešných výsledků, se stal nazýván „p hacking“, který vychází z tlaku, který vědci cítí k dosažení statistické významnosti.

co je statistická významnost?

k vyvození závěrů z údajů se vědci obvykle spoléhají na testování významnosti. Jednoduše řečeno to znamená výpočet „hodnoty p“, což je pravděpodobnost výsledků, jako je ta naše, pokud skutečně neexistuje žádný účinek. Pokud je hodnota p dostatečně malá, výsledek je prohlášen za statisticky významný.

tradičně hodnota p menší než.05 je kritériem významnosti. Pokud nahlásíte p<.05, čtenáři pravděpodobně věří, že jste našli skutečný účinek. Možná však ve skutečnosti neexistuje žádný účinek a vy jste nahlásili falešně pozitivní.

mnoho časopisů zveřejní pouze studie, které mohou vykazovat jeden nebo více statisticky významných účinků. Postgraduální studenti se rychle učí, že dosažení mýtické p

tento tlak na dosažení pp hacking.

lákadlo P hackingu

pro ilustraci P hackingu je zde hypotetický příklad.

Conversation-logo

tento článek Geoffa Cumminga se původně objevil v rozhovoru pod názvem „Jeden z důvodů, proč se tolik vědeckých studií může mýlit“, a je znovu publikován pod licencí use a Creative Commons Attribution noderivativ.

Bruce nedávno dokončil doktorát a získal prestižní grant, aby se připojil k jednomu z nejlepších výzkumných týmů ve svém oboru. Jeho první experiment nefunguje dobře, ale Bruce rychle upřesňuje postupy a provádí druhou studii. To vypadá slibněji, ale stále nedává hodnotu p menší než.05.

přesvědčen, že je na něčem, Bruce shromažďuje více dat. Rozhodl se upustit od několika výsledků, což vypadalo jasně.

pak si všimne, že jedno z jeho opatření dává jasnější obraz, takže se na to zaměřuje. Několik dalších vylepšení a Bruce konečně identifikuje mírně překvapivý, ale opravdu zajímavý efekt, který dosahuje p

Bruce se tak snažil najít efekt, o kterém věděl, že někde číhá. Cítil také tlak na zásah p

je tu jen jeden háček: ve skutečnosti to nemělo žádný účinek. Navzdory statisticky významnému výsledku Bruce zveřejnil falešně pozitivní výsledek.

Bruce cítil, že používá svůj vědecký pohled k odhalení číhajícího efektu, když po zahájení studia podnikl různé kroky:

  • shromáždil další údaje.
  • upustil některá data, která se zdála být aberantní.
  • upustil od některých svých opatření a zaměřil se na nejslibnější.
  • analyzoval data trochu jinak a provedl několik dalších vylepšení.

problém je v tom, že všechny tyto volby byly provedeny po zobrazení dat. Bruce may nevědomky vybíral a vylepšoval, dokud nezískal nepolapitelný pp

statistici mají rčení: Pokud mučíte data dostatečně, přiznají se. Volby a vylepšení provedené po zobrazení dat jsou sporné výzkumné postupy. Použití těchto, úmyslně nebo ne, k dosažení správného statistického výsledku je P hacking, což je jeden z důležitých důvodů, že publikované, statisticky významné výsledky mohou být falešně pozitivní.

jaký podíl zveřejněných výsledků je nesprávný?

to je dobrá otázka a ďábelsky složitá. Nikdo nezná odpověď, která se pravděpodobně bude lišit v různých oblastech výzkumu.

v roce 2015 bylo publikováno velké a působivé úsilí odpovědět na otázku sociální a kognitivní psychologie. Projekt Replicability: Psychology (RP: P), vedený Brianem Noskem a jeho kolegy v Centru pro otevřenou vědu, měl 100 výzkumných skupin po celém světě, z nichž každá provedla pečlivou replikaci jednoho ze 100 publikovaných výsledků. Celkově se zhruba 40 replikovalo poměrně dobře, zatímco v přibližně 60 případech replikační studie získaly menší nebo mnohem menší účinky.

replikační studie 100 RP: P uváděly účinky, které byly v průměru jen poloviční než účinky hlášené původními studiemi. Pečlivě provedené replikace pravděpodobně poskytují přesnější odhady než možná p hacknuté původní studie, takže bychom mohli dojít k závěru, že původní studie přeceňovaly skutečné účinky, v průměru, faktor dva. To je alarmující!

jak se vyhnout P hackingu

nejlepší způsob, jak se vyhnout P hackingu, je vyhnout se jakémukoli výběru nebo vylepšení po zobrazení dat. Jinými slovy, vyhněte se pochybným výzkumným postupům. Ve většině případů je nejlepším způsobem použití předběžné registrace.

Předběžná registrace vyžaduje, abyste předem připravili podrobný plán výzkumu, včetně statistické analýzy, která se použije na data. Poté plán předregistrujete, s datovým razítkem, v rámci Open Science Framework nebo v jiném online registru.

poté proveďte studii, analyzujte data v souladu s plánem a oznamte výsledky bez ohledu na to, jaké jsou. Čtenáři si mohou předregistrovaný plán zkontrolovat, a tak si být jisti, že analýza byla předem zadána, a ne p hacknuta. Předregistrace je pro mnoho vědců náročná nová myšlenka, ale pravděpodobně bude cestou budoucnosti.

odhad spíše než hodnoty p

pokušení P hack je jednou z velkých nevýhod spoléhání se na hodnoty p. Další je, že prather jako říkat efekt existuje nebo ne.

ale svět není černobílý. Pro rozpoznání četných odstínů šedé je mnohem lepší použít spíše odhad než hodnoty p. Cílem odhadu je odhadnout velikost efektu-který může být malý nebo velký, nulový nebo dokonce negativní. Pokud jde o odhad, falešně pozitivní výsledek je odhad, který je větší nebo mnohem větší než skutečná hodnota efektu.

Vezměme si hypotetickou studii o dopadu terapie. Studie by například mohla odhadnout, že terapie v průměru snižuje úzkost o 7 bodů. Předpokládejme, že z našich dat vypočítáme interval spolehlivosti-rozsah nejistoty na obou stranách našeho nejlepšího odhadu . To nám říká, že náš odhad 7 je, s největší pravděpodobností, v rámci asi 3 body na stupnici úzkosti skutečného účinku-skutečná průměrná výše přínosu terapie.

jinými slovy, interval spolehlivosti ukazuje, jak přesný je náš odhad. Znalost takového odhadu a jeho intervalu spolehlivosti je mnohem informativnější než jakákoli hodnota p.

odhad označuji jako jednu z “ nových statistik.“Samotné techniky nejsou nové,ale jejich použití jako hlavního způsobu, jak vyvodit závěry z dat, by pro mnoho vědců bylo nové a velký krok vpřed. Pomohlo by to také vyhnout se deformacím způsobeným hackováním p. Konverzace

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.