カテゴリ:定量的

タグ:P Hacking,Replication,Statistics

P hacking signはありません

科学には複製可能性の危機があります–未確認の「偽陽性」が私たちのトップ研究ジャーナルにも浸透しています。

偽陽性とは、実際には効果がないときに存在するという主張であり、出版された論文のどの割合にそのような誤った結果や誇張された結果が含まれているかは誰も知らないが、その割合は小さくないという兆候がある。

疫学者John Ioannidisは2005年の有名な論文の中でこの現象について最もよく説明し、「なぜ最も公表されている研究結果が偽であるのか」と挑発的に題された。 Ioannidisが非常に多くの誤った結果を与えた理由の一つは、研究者が統計的有意性を達成するために感じる圧力から生じる”pハッキング”と呼ばれるよう

統計的有意性とは何ですか?

データから結論を引き出すために、研究者は通常、有意性検定に依存しています。 簡単に言えば、これは実際に効果がない場合の私たちのような結果の確率である”p値”を計算することを意味します。 P値が十分に小さい場合、結果は統計的に有意であると宣言されます。

伝統的に、p値はより小さい。05は重要性の基準です。 あなたがp<を報告した場合。05、読者はあなたが本当の効果を発見したと信じている可能性があります。 おそらく、しかし、実際には効果はなく、あなたは偽陽性を報告しています。

多くのジャーナルは、1つ以上の統計的に有意な効果を報告できる研究のみを公開します。 P

を達成するために、この圧力はppハッキングを達成することをすぐに大学院生が学びます。

pハッキングの誘惑

pハッキングを説明するために、ここに仮説的な例があります。

Conversation-logo

ジェフ-カミングによるこの記事は、もともとタイトル”One reason so many scientific studies may be wrong”の下で会話に登場し、Creative Commons Attribution NoDerivativesライセンスを使用して再投稿されています。

ブルースは最近博士号を取得し、彼の分野のトップ研究チームの一つに参加するための権威ある助成金を上陸させました。 彼の最初の実験はうまくいかないが、ブルースはすぐに手順を洗練し、第二の研究を実行します。 これはより有望に見えますが、それでもp値がより小さいことはありません。05.

彼は何かに興味を持っていると確信し、ブルースはより多くのデータを収集します。 彼は明らかに道をオフに見えた結果のいくつかを、ドロップすることを決定しました。

彼はその後、彼の措置の一つがより明確な画像を与えることに気づくので、彼はそれに焦点を当てています。 さらにいくつかの微調整とブルースは、最終的にp

ブルースは、彼がどこかに潜んでいた知っていた効果を見つけるために懸命に試してみました達成す 彼はまた、p

を打つ圧力を感じていた唯一のキャッチがあります:実際には効果はありませんでした。 統計的に有意な結果にもかかわらず、ブルースは偽陽性を発表しました。

ブルースは、彼が研究を開始した後、様々な措置を取ったとして、彼は潜んでいる効果を明らかにするために彼の科学的洞察力を使用していたと感じま:

  • 彼はさらなるデータを収集した。
  • 彼は異常と思われるデータをいくつか落とした。
  • 彼はいくつかの対策を落とし、最も有望なものに焦点を当てた。
  • 彼はデータを少し違った方法で分析し、さらにいくつかの調整を行った。

問題は、これらのすべての選択がデータを見た後に行われたことです。 ブルース-メイは、無意識のうちに、とらえどころのないpp

統計学者が言うように、データを十分に拷問すれば、彼らは告白するでしょう。 データを見た後に行われた選択と微調整は、疑わしい研究慣行です。 適切な統計結果を達成するために、意図的にかどうか、これらを使用すると、公開された一つの重要な理由であるpハッキング、統計的に有意な結果は、偽陽性である可能性があります。

公開された結果のどのような割合が間違っていますか?

これは良い質問であり、恐ろしいほどトリッキーな質問です。 誰も答えを知らない、それは異なる研究分野で異なる可能性が高いです。

社会的および認知心理学の質問に答えるための大きくて印象的な努力が2015年に出版されました。 Open Science CenterのBrian Nosekと彼の同僚が率いるReplicability Project:Psychology(RP:P)は、世界中の100の研究グループに、それぞれ100の公開された結果の1つを慎重に複製させました。 全体的に、およそ40はかなりよく複製しましたが、約60例では複製研究はより小さくまたははるかに小さい効果を得ました。

100RP:Pの複製研究では、平均して、元の研究で報告された効果の半分の大きさであった効果が報告されました。 慎重に実施された複製は、おそらくpハッキングされた可能性のある元の研究よりも正確な推定値を与えているため、元の研究が真の効果を平均して2倍に過大評価していると結論づけることができた。 それは驚くべきことです!

pハッキングを回避する方法

pハッキングを回避する最良の方法は、データを見た後に選択や微調整を行わないことです。 他の言葉では、疑わしい研究の実践を避けます。 ほとんどの場合、これを行う最善の方法は、事前登録を使用することです。

事前登録では、データに適用する統計分析を含む詳細な研究計画を事前に準備する必要があります。 その後、Open Science Frameworkまたはその他のオンラインレジストリで、日付スタンプ付きで計画を事前登録します。

その後、調査を行い、計画に従ってデータを分析し、結果を報告する。 読者は事前に登録された計画を確認することができるので、分析が事前に指定されていて、pハッキングされていないことを確信することがで 事前登録は、多くの研究者のための挑戦的な新しいアイデアですが、将来の方法である可能性が高いです。

P値ではなく推定

pハックへの誘惑は、p値に依存する大きな欠点の一つです。

しかし、世界は白黒ではありません。 多数の灰色の色合いを認識するには、p値ではなく推定値を使用する方がはるかに優れています。 推定の目的は、効果の大きさを推定することであり、それは小さいか大きいか、ゼロか、あるいは負でさえあり得る。 推定の観点からは、偽陽性の結果は、効果の真の値よりも大きいか、またははるかに大きい推定値です。

治療の影響について仮説的な研究をしてみましょう。 この研究は、例えば、治療が平均して不安の7点の減少を与えると推定するかもしれません。 私たちのデータから信頼区間–私たちの最良の推定値のいずれかの側の不確実性の範囲–を計算するとします。 これは、私たちの7の推定値が、真の効果の不安スケールで約3ポイント以内である可能性が最も高いことを示しています–治療の真の平均利益量。

つまり、信頼区間は推定値の正確さを示します。 このような推定値とその信頼区間を知ることは、どのp値よりもはるかに有益です。

私は推定を”新しい統計の一つとして参照しています。「技術自体は新しいものではありませんが、データから結論を引き出す主な方法としてそれらを使用することは、多くの研究者にとって新しいもので また、pハッキングによって引き起こされる歪みを避けるのにも役立ちます。

コメントを残す

メールアドレスが公開されることはありません。