マイクロアレイデータの質の確認方法についての考察

 FDRも万能ではないな、と思います。

 生物学研究において、マイクロアレイで遺伝子発現の網羅的なデータを得た場合に、課題になると言われていることは主に次の2つです。
 ①いかにエラー(とくに偽陽性)を減らすか
 ②データを得て、次にどうするのか

 これについては、以前に紹介した「データを正確に解釈するための6つのポイント」(『蛋白質 核酸 酵素』、共立出版、2008~2009)の他、書籍『マイクロアレイデータ統計解析プロトコール』(編:藤渕航・堀本勝久、羊土社、2008)が参考になります。これを踏まえた上で、結局具体的には次のプロセスが大事になると、私は考えています。

 ③Technically duplicated dataから定量的に信頼性のあるシグナルの得られるスポットを選別し、
 ④Biologically duplicated dataから生物学的に再現性のある発現変動遺伝子を選別し、

 あとは、
 ⑤バイオマーカーを抽出するなり、
 ⑥キュレーションをするなり、
 ⑦発現変動遺伝子群に濃縮される機能グループの同定により、遺伝子発現のパターンを捉えるなりして、
 ⇒次の研究ターゲットを絞る。

 そして、マイクロアレイ以外の実験、もっと言えばRNA発現解析以外の実験のデータと併せて考察していくことが重要になります。(実際に、pharmacogenomicsやtoxicogenomicsの分野では、これが試みられてきたわけです。)

+++

 最近では、マイクロアレイのデータの信頼性を統計的処理によって確保するために、MA plotとFDR(false discovery rate:多重比較検定を行ったときに、棄却された帰無仮説のうち真に帰無仮説が正しいものの割合の期待値[Wikipediaより])が用いられることがあります。
 ※ MA plot (Wikipedia)

 これらは、たしかにエラー(とくに偽陽性)を減らし得る一つの方法です。また、マイクロアレイのデータの性格を理解するための概念としては非常に重要です。しかし、マイクロアレイの結果だけで答えを導く必要がない場面では、MA plotがデータ解析に活用することが必要でしょうか。

 というのは、「どんなにシグナル強度(A)が大きくても、発現の違いが比として大きくなければ」、もしそれが「統計学的に(FDRを基準として)有意」であっても注目するに値するでしょうか。また、「どんなに発現比(M)が大きくても、シグナル強度(A)が小さく定量的に信頼性があると言えないレベルであったら」、そのスポットデータは定量解析データとして使われることに耐えるでしょうか。
 私がMA plotの必要性を疑わしく思うのは、これらの疑問を持つことに起因しています。(なおこれは、マイクロアレイの結果『だけで』何かを結論付けたいという場合には当てはまらないと思います。)

 あるプローブスポット上のシグナルの定量的信頼性は、MA plotを使わなくても、technical dulication(例えば、同一プローブについての重複スポット)のデータを見れば分かります。そして、これによる判断の方がMA plotによる判断よりも実際的であると私は考えています。この点、実際に実験を行われている方はどのようにお考えでしょうか。
 (繰り返しになりますが、マイクロアレイの結果『だけで』何かを結論付けたいという場合には、統計学的処理としてFDRを使用することの妥当性は十分に大きいと思います。)

 私自身も、目の前のAgilentのデータと向き合いながら、今後もっと考えていくつもりです。

+++

 本当はここから、マイクロアレイを活用した研究についての最近の私の方針について書くつもりでしたが、それはまたの機会として、今日はここまでで止めてみます。

 梅澤雅和「マイクロアレイデータの質の確認方法についての考察」(2012年5月22日)