マイクロアレイデータの初期処理

 ここでは、マイクロアレイのシグナル値を、試料(チップ)間で比較できる形に標準化した後のデータ処理の手順を紹介します。とくに、解析数の少ないパイロット試験的なデータを扱う場合に有効な方法です。(※1群あたり3チップ以上の解析数を確保できている場合は、FDRを活用するのが妥当であると思います。→参考
 手順としてこれが唯一であるわけではありませんが、ここには、私がデータの扱い方を誤らずにデータを解析するための手順の一部を記したいと思います。

 なお、以下の手順は、市販されているDNAチップのうちSurePrint G3 Gene Expressionシリーズ(アジレント)ならびに3D Geneシリーズ(東レ)について有効であることを確認しています。


 (“・”の項目は数のカウントのみ。“●”の項目ではフィルタリングなどの操作が必要です。)

・ターゲットスポットの総数を確認する。
●スポット上のシグナルの質の良くないものを解析対象から除く。
(*1)
・解析対象とするターゲットスポットの総数を確認する。
 ↓
・解析対象とする遺伝子の総数も確認する。
 固有の(=重複を削除した後の)GenBank Acc.をカウントするなどして確認する。これが、解析対象となる遺伝子の総数となる。
●発現亢進、低下の遺伝子リストを作成する。
 ↓
●同一の遺伝子について、重複スポット(technically duplicated)のデータ間での発現亢進・低下の矛盾がないかを確認する。
 矛盾があった場合には、それが以下のいずれによって生じているかを検討する。

 1)同一のRNA量を検出するためのプローブであるが、配列の異なるプローブ(異なるProbe IDを持つプローブ)から得られたデータである。
 2)スポット上で明らかなエラーシグナルが得られたと判断できるシグナル強度値が検出されている。
 3)シグナル値が低く、定量的に信頼性のあるレベルの発現量しか検出できていないと判断できる。
 ↓
 3)の場合には、標準化後のシグナル値がどの程度以上であれば定量性に確度があるかを検討する。そして、比較しているいずれの試料でもその程度未満のシグナル値しか検出されていないスポットは、解析対象から除くことを検討する。
 この操作を行うと、「比較しているRNA試料のいずれにおいても発現が低く、マイクロアレイで定量的に信頼性のあるシグナルを得られるレベルでない遺伝子」を「発現が無しもしくは極めて微小」であるとして、解析対象から除くことになる。言葉を換えると、「当該比較条件では、解析対象である条件や齢の細胞/組織においても、そもそもしない遺伝子」を除くことになる。「有意な発現変動遺伝子群がいずれであるか」を判定する過程においては、この方法が有効である。

 この操作を行ったら上の(*1)に戻り、再び解析対象とするターゲットスポットの総数を再び確認して、それ以降操作も進める。

+++

 以上は、マイクロアレイのデータをマニュアルで扱う際の基本的な操作の一つであると思います。この操作を通してデータを俯瞰できるようになれば、顕著に発現変動している遺伝子群を見つけ出したり、注目したい発現パターンを示している遺伝子群を見つけ出したり、発現変動遺伝子群の持つ機能的特徴を抽出(→参考:MeSHを用いたマイクロアレイ解析法)したりすることも可能になるでしょう。

 マイクロアレイのデータの扱い方や解釈の仕方には、他にも注意点が少なからずありますが、それもまた機会があれば改めて触れたいと思います。