メイン その他 偽発見率

偽発見率

概要概要

ソフトウェア

説明

ウェブサイト

読書

コース

概要概要

このページでは、誤検出率(FDR)について簡単に説明し、注釈付きのリソースリストを提供します。

説明

ゲノムワイドな研究の結果を分析する場合、多くの場合、何千もの仮説検定が同時に実行されます。多重比較を修正するために従来のボンフェローニ法を使用することは、誤検出の発生を防ぐことで多くの見落とされる結果につながるため、保守的すぎます。低い偽陽性率を維持しながら、可能な限り多くの有意な比較を識別できるようにするために、偽発見率(FDR)とそのアナログのq値が利用されます。

問題の定義
たとえば、2つの平均が有意に異なるかどうかを確認するために仮説検定を実行する場合、p値を計算します。これは、ヌル仮説が真であると仮定して、観測されたものと同じかそれ以上の極端な検定統計量を取得する確率です。たとえば、p値が0.03の場合、ヌル仮説が真である場合、観測された検定統計量またはより極端な値を取得する可能性が3%あることを意味します。これは確率が小さいため、帰無仮説を棄却し、平均が大幅に異なると言います。私たちは通常、この確率を5%未満に保つのが好きです。アルファを0.05に設定すると、ヌルの結果が有意と呼ばれる確率を5%未満にする必要があると言っています。つまり、タイプIのエラーまたは誤検知の確率を5%未満にする必要があります。

多重比較を行う場合(各テストを機能と呼びます)、誤検出の可能性が高くなります。持っている機能が多いほど、null機能が重要と呼ばれる可能性が高くなります。偽陽性率(FPR)、または比較エラー率(PCER)は、実行されたすべての仮説検定から予想される偽陽性の数です。したがって、FPRを0.05のアルファで制御する場合、すべての仮説検定のうちの誤検出(有意と呼ばれるヌル機能)のパーセンテージが5%以下であることを保証します。この方法は、多数の仮説検定を実行するときに問題を引き起こします。たとえば、腫瘍組織と健康な組織の間の遺伝子発現の差異を調べるゲノムワイドな研究を行っていて、1000個の遺伝子をテストし、FPRを制御した場合、平均50個の真にヌルの遺伝子が有意と呼ばれます。この方法は、それほど多くの誤検知を発生させたくないため、あまりにも寛大です。

通常、多重比較手順は、代わりにファミリーワイズエラー率(FWER)を制御します。これは、実行されたすべての仮説検定から1つ以上の誤検出が発生する確率です。一般的に使用されるボンフェローニ補正はFWERを制御します。各仮説を有意水準(アルファ/仮説検定の数)で検定する場合、1つ以上の誤検出が発生する確率がアルファよりも小さいことを保証します。したがって、アルファが0.05で、1000個の遺伝子をテストする場合、0.00005の有意水準で各p値をテストして、1つ以上の誤検出が発生する確率が5%以下であることを保証します。ただし、単一の誤検出に対する保護は、ゲノムワイドな研究には厳しすぎる可能性があり、特に多くの真の検出があると予想される場合は、多くの発見を見逃す可能性があります。

誤検出率(FDR)を制御することは、誤検知の割合を比較的低く抑えながら、できるだけ多くの重要な機能を識別する方法です。

誤検出率を制御するための手順:

  • レベルαでのFDRの制御*(つまり、誤検出の予想レベルを検出の総数で割った値が制御されます)

E [V⁄R]

  • 各仮説検定と次数のp値を計算します(最小から最大、P(最小)…….P(最大))

  • i番目に順序付けられたp値について、以下が満たされているかどうかを確認します。

P(i)≤α×i / m

trueの場合、重要

*制限:エラー率(α)が非常に大きい場合、重要な結果の中で誤検出の数が増える可能性があります

偽発見率(FDR)

FDRは、重要と呼ばれる機能が本当にヌルである率です。
FDR =期待される(#誤った予測/#合計予測)

FDRは、重要と呼ばれる機能が本当にヌルである率です。 5%のFDRは、重要と呼ばれるすべての機能の中で、これらの5%が本当にヌルであることを意味します。 FPRを制御するためにp値のしきい値としてアルファを設定するのと同じように、p値のFDRアナログであるq値のしきい値を設定することもできます。 0.05のp値しきい値(アルファ)は、すべての真にヌルの特徴の中で5%のFPRをもたらします。 0.05のq値しきい値は、重要と呼ばれるすべての機能の中で5%のFDRを生成します。 q値は、すべての特徴の中で、観察されたものと同じかそれ以上に極端な誤検出の予想される割合です。

1000個の遺伝子に関する私たちの研究では、遺伝子Yのp値が0.00005、q値が0.03であるとします。差次的に発現されていない遺伝子の検定統計量が、遺伝子Yの検定統計量と同じかそれ以上になる確率は0.00005です。ただし、遺伝子Yの検定統計量は非常に極端である可能性があり、この検定統計量は、差次的に発現する遺伝子の場合はありそうにありません。遺伝子Yよりも極端でない検定統計量を持つ差次的に発現する遺伝子が本当に存在する可能性は十分にあります。0.03のq値を使用すると、遺伝子の3%が極端であるか、それ以上であると言えます(つまり、p値が低い遺伝子)。値)遺伝子Yは偽陽性であるため。 q値を使用すると、重要と呼ばれるすべての機能の中で受け入れる誤検知の数を決定できます。これは、後でさらに確認するために多数の発見を行いたい場合に特に役立ちます(つまり、リアルタイムPCRで確認するために、遺伝子発現マイクロアレイを使用して差次的に発現する遺伝子を選択する場合など、パイロット研究または探索的分析)。これは、機能のかなりの部分が真に代替的であると予想され、発見能力を制限したくないゲノムワイドな研究でも役立ちます。

FDRにはいくつかの便利なプロパティがあります。すべての帰無仮説が真である場合(真に代替の結果はありません)、FDR = FWERです。真に対立仮説がいくつかある場合、FWERを制御すると、FDRも自動的に制御されます。

FDR法の検出力(検出力は、代替案が真の場合に帰無仮説を棄却する確率であることを思い出してください)は、ボンフェローニ法よりも一様に大きくなります。ボンフェローニ法に対するFDRの電力の利点は、仮説検定の数が増えるにつれて増加します。

FDRの推定
(Story and Tibshirani、2003年から)

定義:t:thresholdV:誤検出の数S:有意と呼ばれる特徴の数m0:真にヌルの特徴の数m:仮説検定(特徴)の総数
特定のしきい値tでのFDRはFDR(t)です。 FDR(t)≈E[V(t)] / E [S(t)] –>特定のしきい値でのFDRは、そのしきい値での誤検知の予想数を重要と呼ばれる特徴の予想数で割ったものとして推定できます。そのしきい値で。
E [S(t)]をどのように推定しますか?
E [S(t)]は単純にS(t)であり、観測されたp値の数≤t(つまり、選択したしきい値で有意と呼ばれる特徴の数)です。nullp値が≤tである確率はtです。 (alpha = 0.05の場合、真にヌルの特徴のp値が偶然にしきい値を下回っているため、有意と呼ばれる確率は5%です)。
E [V(t)]をどのように推定しますか?
E [V(t)] = m0 * t –>特定のしきい値に対する誤検知の予想数は、真にヌルの特徴の数にヌルの特徴が有意と呼ばれる確率を掛けたものに等しくなります。
m0をどのように推定しますか?
m0の真の値は不明です。真にヌルである特徴の割合を推定することができます、m0 / m =π0。
ヌル特徴のp値は[0,1]の間で均一に分布する(平坦な分布を持つ)と仮定します。一様分布の高さは、ヌルp値の全体的な比率π0の控えめな推定値を示します。たとえば、Story and Tibshirani(2003)から取得した以下の画像は、遺伝子発現研究からの3000個の遺伝子の3000個のp値の密度ヒストグラムです。点線は、ヒストグラムの平坦な部分の高さを表します。真にヌルの特徴が[0,1]からこの一様分布を形成し、真に代替の特徴が0に近づくことを期待しています。

核爆弾の後、放射線はどのくらい持続しますか

π0はとして定量化されます。ここで、ラムダは調整パラメーターです(たとえば、上の画像では、p値が0.5の場合、分布がかなり平坦であるため、ラムダ= 0.5を選択できます。真にヌルの特徴の比率はpの数に等しくなります。 -ラムダをm(1-ラムダ)で割った値よりも大きい値。ラムダが0に近づくと(分布の大部分がフラットな場合)、p値の大部分が大きくなるため、分子と同様に分母は約mになります。ラムダよりも大きく、π0は約1になります(すべての特徴はnullです)。
ラムダの選択は通常、統計プログラムによって自動化されます。

π0を推定したので、FDR(t)を次のように推定できます。
π0* mは真にヌルの仮説の推定数であり、tは真にヌルの特徴が有意と呼ばれる(しきい値tを下回る)確率であるため、この方程式の分子は誤検出の予想数です。上で述べたように、分母は単に重要と呼ばれる機能の数です。
その場合、機能のq値は、その機能を重要と呼ぶときに達成できる最小のFDRです。

(注:上記の定義では、mが非常に大きいため、S> 0であると想定しています。S= 0の場合、FDRは定義されていないため、統計文献では、量E [V /?S?| S> 0]?* Pr (S> 0)がFDRとして使用されます。あるいは、正のFDR(pFDR)が使用されます。これはE [V / S?| S> 0]です。BenjaminiとHochberg(1995)およびStoryとTibshirani(2003)を参照してください。詳細については。)

読書

教科書と章

生物統計学の最近の進歩(第4巻):
偽発見率、生存分析、および関連トピック
Manish Bhattacharjee(ニュージャージー工科大学、米国)、Sunil K Dhar(ニュージャージー工科大学、米国)、およびSundarraman Subramanian(ニュージャージー工科大学、米国)によって編集されました。
http://www.worldscibooks.com/lifesci/8010.html
この本の最初の章では、この分野の著名な統計学者によって提案されたFDR制御手順のレビューを提供し、p値が独立または正に依存しているときにFDRを制御する新しい適応方法を提案します。

直感的な生物統計学:統計的思考への非数学的なガイド
ハーベイ・モトゥルスキー
http://www.amazon.com/Intuitive-Biostatistics-Nonmathematical-Statistical-Thinking/dp/product-description/0199730067
これは、複雑な統計的背景を持たない科学者のために書かれた統計の本です。パートE「統計の課題」では、ファミリーワイズエラー率とFDRの基本的な説明を含め、多重比較の問題とそれを処理するさまざまな方法を素人の言葉で説明しています。

大規模な推論:推定、テスト、および予測のための経験的なベイズ法
Efron、B。(2010)による。数理統計学会モノグラフ、ケンブリッジ大学出版局。
http://www.amazon.com/gp/product/0521192498/ref=as_li_ss_tl?ie=UTF8&tag=chrprobboo-20&linkCode=as2&camp=1789&creative=390957&creativeASIN=0521192498
これは、FDRの概念をレビューし、推定手順としてだけでなく、有意性検定オブジェクトとしてのその価値を探求する本です。著者はまた、FDR推定の精度の経験的評価を提供します。

方法論の記事

Benjamini、Y。and Y. Hochberg(1995)。誤検出率の制御:多重検定への実用的で強力なアプローチ。王立統計学会誌。シリーズB(方法論)57(1):289-300。
この1995年の論文は、FDRの最初の正式な説明でした。著者は、FDRがファミリーワイズエラー率(FWER)とどのように関連しているかを数学的に説明し、FDRの使用方法の簡単な例を示し、ボンフェローニタイプの手順と比較したFDR手順の能力を実証するシミュレーション研究を実施します。

ストーリー、J。D。およびR. Tibshirani(2003)。ゲノムワイド研究の統計的有意性。全米科学アカデミー紀要100(16):9440-9445。
この論文では、FDRとは何か、そしてそれがゲノムワイドな研究にとって重要である理由を説明し、FDRを推定する方法について説明します。 FDRが役立つ状況の例を示し、著者がFDRを使用してマイクロアレイの差次的遺伝子発現データを分析する方法の実例を示します。

階建てJD。 (2010)偽発見率。統計科学の国際百科事典では、Lovric M(編集者)。
FDR制御、ポジティブFDR(pFDR)、および依存性について概説した非常に優れた記事。多重比較のためのFDRおよび関連する方法の簡単な概要を取得することをお勧めします。

Reiner A、Yekutieli D、Benjamini Y:偽発見率制御手順を使用して差次的に発現する遺伝子を特定します。 Bioinformatics 2003、19(3):368-375。
この記事では、シミュレートされたマイクロアレイデータを使用して、3つのリサンプリングベースのFDR制御手順をBenjamini-Hochberg手順と比較します。検定統計量のリサンプリングは、各遺伝子の差次的発現の検定統計量の分布を想定しないように行われます。

Verhoeven KJF、Simonsen KL、McIntyre LM:誤検出率制御の実装:パワーの向上。 Oikos 2005、108(3):643-647。
このホワイトペーパーでは、Benjamini-Hochbergの手順を説明し、シミュレーションの例を示し、元のFDR法よりも多くの電力を提供できるFDR分野の最近の開発について説明します。

Stan Pounds and Cheng Cheng(2004)誤検出率推定の改善BioinformaticsVol。 20番2004年11月、1737〜1745ページ。
この論文では、スペーシングLOESSヒストグラム(SPLOSH)と呼ばれる方法を紹介します。この方法は、条件付きFDR(cFDR)を推定するために提案されています。これは、k個の「有意な」結果があることを条件とする誤検知の予想される割合です。

Daniel Yekutieli、Yoav Benjamini(1998)相関検定統計量の複数の検定手順を制御するリサンプリングベースの誤検出率Journal of Statistics Planning and Inference 82(1999)171-196。
このホワイトペーパーでは、相互に相関する検定統計量を処理するための新しいFDR制御手順を紹介します。この方法では、リサンプリングに基づいてp値を計算します。この方法の特性は、シミュレーション研究を使用して評価されます。

Yoav Benjamini and Daniel Yekutieli(2001)依存性の下での多重検定における偽発見率の制御The Annals of Statistics 2001、Vol。 29、No。4、1165〜1188。
最初に提案されたFDR法は、独立した検定統計量の多重仮説検定で使用するためのものでした。この論文は、検定統計量が真のヌル仮説に対応する各検定統計量に正の回帰依存性を持っている場合、元のFDR法もFDRを制御することを示しています。従属検定統計量の例は、臨床試験における治療群と対照群の間の複数のエンドポイントの検定です。

John D. Storey(2003)正の誤検出率:ベイズの解釈とq値The Annals of Statistics 2003、Vol。 31、No。6、2013〜2035。
このホワイトペーパーでは、陽性の誤検出率(pFDR)を定義します。これは、少なくとも1つの陽性の結果がある場合に、有意と呼ばれるすべてのテストから予想される誤検出の数です。この論文はまた、pFDRのベイズ解釈を提供します。

Yudi Pawitan、Stefan Michiels、Serge Koscielny、Arief Gusnanto、およびAlexander Ploner(2005)マイクロアレイ研究の誤検出率、感度、およびサンプルサイズBioinformaticsVol。 21号13 2005、3017〜3024ページ。
この論文では、FDR制御と感度に基づいて2サンプル比較研究のサンプルサイズを計算する方法について説明します。

Grant GR、Liu J、Stoeckert CJ Jr.(2005)マイクロアレイデータにおける差次的発現のパターンを特定するための実用的な偽発見率アプローチ。バイオインフォマティクス。 2005、21(11):2684-90。
著者は、順列推定方法について説明し、統計およびデータ変換方法の研究者の選択に関する問題について議論します。マイクロアレイデータの使用に関連する電力の最適化についても検討します。

Jianqing Fan、Frederick L. Moore、Xu Han、Weijie Gu、任意の共分散依存性の下での偽発見率の推定。 J Am StatAssoc。 2012; 107(499):1019-1035。
この論文は、検定統計量の共分散行列の主因子近似に基づくFDRの制御方法を提案し、説明します。

アプリケーション記事

Han S、Lee K-M、Park SK、Lee JE、Ahn HS、Shin HY、Kang HJ、Koo HH、Seo JJ、Choi JE et al:韓国における小児急性リンパ芽球性白血病のゲノムワイド関連研究。 Leukemia research 2010、34(10):1271-1274。
これは、小児急性リンパ芽球性白血病(ALL)との関連について100万の一塩基多型(SNP)をテストするゲノムワイド関連(GWAS)研究でした。彼らはFDRを0.2に制御し、4つの異なる遺伝子の6つのSNPがALLリスクと強く関連していることを発見しました。

Pedersen、K。S.、Bamlet、W。R.、Oberg、A。L.、de Andrade、M.、Matsumoto、M。E.、Tang、H.、Thibodeau、S。N.、Petersen、G。M. and Wang、L。(2011)白血球DNAメチル化シグネチャーは膵臓癌患者を健康な対照から区別します。 PLoS ONE 6、e18223。
この研究はFDRを管理しました<0.05 when looking for differentially methylated genes between pancreatic adenoma patients and healthy controls to find epigenetic biomarkers of disease.

Daniel W. Lin、Liesel M. FitzGerald、Rong Fu、Erika M. Kwon、Siqun Lilly Zheng、Suzanne et.al. LEPR、CRY1、RNASEL、IL4、およびARVCF遺伝子の遺伝的変異は前立腺癌特異的の予後マーカーです死亡率(2011)、Cancer Epidemiol Biomarkers Prev.2011; 20:1928-1936。この研究では、高リスクの個人の間でその予後的価値をテストするために、前立腺癌の発症に関連する選択された候補遺伝子の変異を調べました。 FDRを使用して、一塩基多型(SNP)をランク付けし、関心のある上位ランクのsnpsを特定しました。

Radom-Aizik S、Zaldivar F、Leu S-Y、Adams GR、Oliver S、Cooper DM:若い男性の末梢血単核細胞におけるマイクロRNA発現に対する運動の影響。 Clinical and Translational Science 2012、5(1):32-38。
この研究では、マイクロアレイを使用して、運動前後のマイクロRNA発現の変化を調べました。彼らはBenjamini-Hochberg手順を使用してFDRを0.05に制御し、236個のマイクロRNAのうち34個が差次的に発現していることを発見しました。次に、研究者はこれらの34からマイクロRNAを選択し、リアルタイムPCRで確認しました。

ウェブサイト

R統計パッケージ
http://genomine.org/qvalue/results.html
データファイルへのリンクを含む、Story and Tibshirani(2003)の論文のデータを分析するために使用される注釈付きRコード。このコードは、任意の配列データで機能するように適合させることができます。

http://www.bioconductor.org/packages/release/bioc/html/qvalue.html
Rのqvalueパッケージ。

http://journal.r-project.org/archive/2009-1/RJournal_2009-1.pdf

Journal R Projectは、R Foundation for StatisticsComputingの査読付きオープンアクセス出版物です。このボリュームは、MeganOrrとPengLiuによる「マイクロアレイ実験の誤検出率を制御しながらのサンプルサイズの推定」というタイトルの記事を提供します。特定の機能と詳細な例が提供されています。

http://strimmerlab.org/notes/fdr.html
このWebサイトでは、FDR分析用のRソフトウェアのリストと、パッケージ機能の説明についてのホームページへのリンクを提供しています。

SAS
http://support.sas.com/documentation/cdl/en/statug/63347/HTML/default/viewer.htm#statug_multtest_sect001.htm
SASのPROCMULTTESTの説明。さまざまな方法を使用してFDRを制御するためのオプションを提供します。

状態
http://www.stata-journal.com/article.html?article=st0209
複数のテスト手順のq値を計算するためのSTATAコマンドを提供します(FDRで調整されたq値を計算します)。

FDR_generalWebリソース
http://www.math.tau.ac.il/~ybenja/fdr/index.htm
FDRを最初に正式に導入したテルアビブ大学の統計学者によって管理されているウェブサイト。

http://www.math.tau.ac.il/~ybenja/
このFDRWebサイトには、多くの参考資料があります。 FDRに関する講義をレビューできます。

http://www.cbil.upenn.edu/PaGE/fdr.html
FDRの簡潔でわかりやすい説明。例を含む便利な一目でわかる要約が提供されます。

http://www.rowett.ac.uk/~gwh/False-positives-and-the-qvalue.pdf
誤検知とq値の概要。

コース

カーネギーメロン大学統計学部のクリストファーR.ジェノベーゼによる偽発見制御に関するチュートリアル。
このパワーポイントは、FDRの数学的基盤とFDRのバリエーションを学ぶことに興味がある人のための非常に徹底的なチュートリアルです。

ワシントン大学ゲノム科学部のJoshuaAkeyによる多重検定。
このパワーポイントは、多重比較とFDRの非常に直感的な理解を提供します。この講義は、数学をあまり使わずにFDRを簡単に理解したい方に適しています。

2つのクラス間の差異的表現の検出における局所的偽発見率の推定。
オーストラリア、クイーンズランド大学教授、GeoffreyMacLachlanによるプレゼンテーション。
www.youtube.com/watch?v=J4wn9_LGPcY
このビデオ講義は、特定の検定統計量またはp値が与えられた場合に、特定の仮説が真である確率であるローカルFDRについて学習するのに役立ちました。

離散テストの誤検出率制御手順
統計およびオペレーションズリサーチ部門の教授であるルースヘラーによるプレゼンテーション。テルアビブ大学
http://www.youtube.com/watch?v=IGjElkd4eS8
このビデオ講義は、離散データに対するFDR制御の適用について学ぶのに役立ちました。離散データを処理する際のFDR制御のいくつかのステップアップおよびステップダウン手順について説明します。最終的にパワーを高めるのに役立つ代替案がレビューされます。

興味深い記事

エディターズチョイス

肥満は以前考えられていたよりも多くのアメリカ人を殺します
肥満は以前考えられていたよりも多くのアメリカ人を殺します
肥満は以前考えられていたよりもはるかに致命的です。科学者によると、ここ数十年にわたって、肥満は40歳から85歳までの黒人と白人のアメリカ人の死亡の18パーセントを占めていました。この発見は、その部分を約5%にする科学者の間の一般的な知恵に挑戦します。肥満は、最近のいくつかよりも劇的に悪い健康への影響をもたらします
アーロン・A・フォックス
アーロン・A・フォックス
アーロン・フォックスは1997年にコロンビアに来ました。彼は、1994年から1997年まで、シアトルのワシントン大学の人類学および音楽学部で教鞭を執っていました。彼はテキサス大学オースティン校で社会人類学の博士号を取得し(1995年)、ハーバード大学で音楽の学士号を取得しています。アーロンは2008年から2011年まで学科の議長を務めました。
Paola Cossermelli Messina
Paola Cossermelli Messina
Paola Cossermelli Messinaは、音楽、政治、性別の交差点にある研究に関心を持つサウンドデザイナー兼オーディオエンジニアです。 CUNY-Creative ArtsTeamのプログラムであるSoundThinking NYCのプロジェクトマネージャーとして、彼女は最近、音楽とテクノロジーの仕事と教育のイニシアチブとの関係に関心を持っています。彼女は文学士号を取得しています。音楽で
大学を超えて到達する:論説を書く
大学を超えて到達する:論説を書く
ダニエル・リッチマン
ダニエル・リッチマン
ダニエルリッチマンは、ニューヨーク南部地区の米国検察庁の元連邦検察官であり、刑事判決、連邦刑法、判決、サイバーセキュリティ、データプライバシー、監視法について教え、執筆しています。彼の最近の奨学金には、検察官の裁量と刑法を形成する検察官の力に対処する記事「検察官の会計」、および「アメリカの殺人事件における最近の急増とより長い傾向の理解」(コロンビア大学法学教授ジェフリー・フェーガン)が含まれます。リッチマンは、コロンビア大学の大統領教育賞を受賞しています。 2007年に学部に入る前は、フォーダムロースクールとバージニア大学ロースクールで教鞭を執っていました。リッチマンは、上訴弁護士を務め、組織化された犯罪部門と麻薬部門の両方で働いていた米国弁護士事務所での経験に加えて、米国最高裁判所のサーグッドマーシャル判事と、第2米国巡回区のウィルフレッドファインバーグ裁判長を務めました。控訴裁判所。リッチマンは、FBIのジェームズB.コミー長官の顧問、および米国司法省と財務省のコンサルタントを務めてきました。ニューヨーク市長のマイケル・ブルームバーグの下で、リッチマンは地方条件付き解放委員会の委員長を務めました。彼は現在、公共の完全性の向上のためのコロンビア大学ロースクールセンターの教員顧問です。
リハビリテーション・再生医療科
リハビリテーション・再生医療科
反復運動損傷(反復運動損傷)とは何ですか?
レビュー: '聖。オオカミによって育てられた女の子のためのルーシーの家
レビュー: '聖。オオカミによって育てられた女の子のためのルーシーの家