Categories: Quantitative

Tags: P Hacking, replikacja, statystyki

No P hacking sign

w nauce panuje kryzys replikacji – niezidentyfikowane „fałszywe alarmy” przenikają nawet nasze najlepsze czasopisma naukowe.

fałszywy pozytyw jest twierdzeniem, że efekt istnieje, gdy w rzeczywistości nie ma. nikt nie wie, jaka część opublikowanych prac zawiera tak nieprawidłowe lub zawyżone wyniki, ale są oznaki, że proporcja nie jest mała.

epidemiolog John Ioannidis dał najlepsze wyjaśnienie tego zjawiska w słynnej pracy w 2005 roku, prowokacyjnie zatytułowanej „dlaczego większość opublikowanych wyników badań jest fałszywa”. Jeden z powodów, dla których Ioannidis podawał tak wiele fałszywych wyników, został nazwany „p”, co wynika z presji, jaką naukowcy uważają za osiągnięcie istotności statystycznej.

jakie jest znaczenie statystyczne?

aby wyciągnąć wnioski z danych, naukowcy zwykle polegają na testowaniu istotności. W prostych słowach oznacza to obliczenie „wartości p”, która jest prawdopodobieństwem wyników takich jak nasze, Jeśli naprawdę nie ma efektu. Jeżeli wartość p jest wystarczająco mała, wynik deklaruje się jako statystycznie istotny.

tradycyjnie wartość p jest mniejsza niż05 jest kryterium istotności. W przypadku zgłoszenia p<.05, czytelnicy są skłonni uwierzyć, że znalazłeś prawdziwy efekt. Być może jednak nie ma żadnego efektu i zgłosiłeś fałszywie pozytywny wynik.

wiele czasopism publikuje tylko badania, które mogą zgłosić jeden lub więcej istotnych statystycznie efektów. Absolwenci szybko dowiadują się, że osiągnięcie mitycznego p

presji na osiągnięcie pp hacking.

przynęta p hacking

aby zilustrować P hacking, oto hipotetyczny przykład.

Conversation-logo

ten artykuł autorstwa Geoffa Cumminga pierwotnie ukazał się w the Conversation pod tytułem „One reason so many scientific studies may be wrong” I został opublikowany na licencji Creative Commons Uznanie autorstwa Bez utworów zależnych.

Bruce niedawno ukończył doktorat i otrzymał prestiżowy grant, aby dołączyć do jednego z najlepszych zespołów badawczych w swojej dziedzinie. Jego pierwszy eksperyment nie wychodzi dobrze, ale Bruce szybko udoskonala procedury i przeprowadza drugie badanie. To wygląda bardziej obiecująco, ale nadal nie daje wartości p mniejszej niż.05.

przekonany, że jest na czymś, Bruce zbiera więcej danych. Postanowił rzucić kilka wyników, które wyglądały wyraźnie odbiegająco.

następnie zauważa, że jeden z jego środków daje jaśniejszy obraz, więc skupia się na tym. Kilka poprawek i Bruce w końcu identyfikuje nieco zaskakujący, ale naprawdę interesujący efekt, który osiąga P

Bruce tak bardzo starał się znaleźć efekt, o którym wiedział, że gdzieś się czai. Odczuwał również presję, aby uderzyć w p

jest tylko jeden haczyk: faktycznie nie było efektu. Pomimo statystycznie istotnego wyniku, Bruce opublikował fałszywie pozytywny wynik.

Bruce czuł, że wykorzystuje swój naukowy wgląd, aby ujawnić efekt czai się, gdy podejmował różne kroki po rozpoczęciu badań:

  • zebrał dalsze dane.
  • upuścił jakieś dane, które wydawały się błędne.
  • porzucił część swoich działań i skupił się na najbardziej obiecujących.
  • przeanalizował dane nieco inaczej i dokonał kilku dalszych poprawek.

problem polega na tym, że wszystkie te wybory zostały dokonane po obejrzeniu danych. Bruce may, nieświadomie, wybierał i poprawiał, dopóki nie uzyskał nieuchwytnego pp

statystycy mają powiedzenie: Jeśli torturujesz dane wystarczająco, przyznają się. Wybory i poprawki dokonane po obejrzeniu danych są wątpliwymi praktykami badawczymi. Wykorzystanie ich, celowo lub nie, w celu osiągnięcia właściwego wyniku statystycznego jest jednym z ważnych powodów, dla których publikowane, statystycznie istotne wyniki mogą być fałszywie dodatnie.

jaka część opublikowanych wyników jest błędna?

to jest dobre pytanie i diabelsko trudne. Nikt nie zna odpowiedzi, która może być inna w różnych dziedzinach badań.

w 2015 roku opublikowano obszerną i imponującą próbę odpowiedzi na pytanie o psychologię społeczną i poznawczą. Prowadzony przez Briana Nosek i jego kolegów z Center for Open Science, projekt Replicability: Psychology (RP:P) miał 100 grup badawczych na całym świecie, z których każda przeprowadziła dokładną replikację jednego ze 100 opublikowanych wyników. Ogólnie około 40 replikowało się dość dobrze, podczas gdy w około 60 przypadkach badania replikacji uzyskiwały mniejsze lub znacznie mniejsze efekty.

w badaniach replikacji 100 RP:P odnotowano efekty, które były średnio o połowę mniejsze od efektów zgłaszanych w badaniach pierwotnych. Starannie przeprowadzone replikacje prawdopodobnie dają dokładniejsze szacunki niż możliwe p. n. e., więc możemy stwierdzić, że oryginalne badania zawyżały rzeczywiste efekty średnio o dwa czynniki. To alarmujące!

jak uniknąć P hacking

najlepszym sposobem, aby uniknąć P hacking jest uniknięcie dokonywania wyboru lub poprawek po obejrzeniu danych. Innymi słowy, unikaj wątpliwych praktyk badawczych. W większości przypadków najlepszym sposobem jest użycie rejestracji wstępnej.

rejestracja wstępna wymaga wcześniejszego przygotowania szczegółowego planu badań, w tym analizy statystycznej, którą należy zastosować do danych. Następnie wstępnie rejestrujesz plan, z datownikiem, w Open Science Framework lub w innym rejestrze online.

następnie wykonaj badanie, przeanalizuj dane zgodnie z planem i zgłoś wyniki, niezależnie od tego, jakie są. Czytelnicy mogą sprawdzić wstępnie zarejestrowany plan, a tym samym mieć pewność, że analiza została wcześniej określona, a nie P. Rejestracja wstępna jest nowym wyzwaniem dla wielu badaczy, ale prawdopodobnie będzie drogą na przyszłość.

Szacowanie zamiast wartości p

Pokusa na p jest jedną z największych wad polegania na wartościach P. Innym jest to, że Prater jak powiedzieć, że efekt istnieje lub nie.

ale świat nie jest czarno-biały. Aby rozpoznać liczne odcienie szarości, znacznie lepiej jest użyć estymacji, a nie wartości P. Celem estymacji jest oszacowanie wielkości efektu-który może być mały lub duży, zerowy, a nawet ujemny. Pod względem estymacji, fałszywie pozytywny wynik jest oszacowaniem, które jest większe lub znacznie większe niż prawdziwa wartość efektu.

weźmy hipotetyczne badanie wpływu terapii. Badanie może na przykład oszacować, że terapia daje średnio 7-punktowy spadek lęku. Załóżmy, że obliczymy z naszych danych przedział ufności – zakres niepewności po obu stronach naszego najlepszego oszacowania-of . To mówi nam, że nasze oszacowanie 7 jest najprawdopodobniej w około 3 punktach na skali lęku prawdziwego efektu – prawdziwej średniej wysokości korzyści z terapii.

innymi słowy, przedział ufności wskazuje, jak dokładne jest nasze oszacowanie. Poznanie takiego oszacowania i jego przedziału ufności jest znacznie bardziej pouczające niż jakakolwiek wartość P.

oceniam jako jedną z ” nowych statystyk.”Same techniki nie są nowe, ale wykorzystanie ich jako głównego sposobu wyciągania wniosków z danych byłoby dla wielu badaczy nowym i dużym krokiem naprzód. Pomogłoby to również uniknąć zakłóceń spowodowanych przez p hacking. Rozmowa

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.