BICoB-2011(国際バイオインフォマティクス・計算生物学会)参加報告

 学会は、2011年3月23日~25日の3日間行われました。この学会では、生物学に関する様々な事象をcomputer scienceの観点から計算的に理解する手法や、それを用いた例などが報告されました。
 ここでは発表の報告として、そのうち私の興味を持った「SVM-RFE」(遺伝子発現解析に用いる)という手法と、「Temporal patterns mining」(ここではLC-MSによるタンパク質解析に用いている)について紹介します。

SVM-RFE (Support Vector Machines-Recursive Feature Elimination)
TPM (Temporal Pattern Mining)


SVM-RFE (Support Vector Machines-recursive feature elimination)
・For microarray
・BICoB-2011での発表は、
 Wang J & Liang Y et al.
 Identification of salt tolerance genes in rice from microarray data using SVM-RFE.

・参考論文
 Ding Y & Wilkins D (2007)
 Improving the Performance of SVM-RFE to Select Genes in Microarray Data.
 BMC Bioinformatics 7(Suppl 2): S12

 (この論文の内容のうち、RFEの概念とその修正版であるRFE-Annealingについて)
 計算科学は既存のデータからの事象の予測を一つの研究目的としている。とくに遺伝子発現データについては、あるdata setから被験者が疾患状態であるかどうか、もしくはどのような疾患が被験者にあるかを予測することを目的にする。
 遺伝子発現データを扱う上での課題は、data setとして非常に多くのattributes(この場合は遺伝子)を持つものを扱わなくてはいけないことである。そこで、遺伝子発現解析にあたっては対象 (feature) を選択したり次元を縮小したりする必要があるが、これを果たすためのアルゴリズムがRFEである。RFEは重複したfeatureを再帰的(帰納的)に選択し、これを除いていく方法である。
 この方法を使った研究は、20"00年台"前半から報告されてきた(Guyon I et al. 2002 など)。しかし、featureを適切に絞っていく処理には非常に困難を伴う。そこで従来のRFEでは、"greedy" にfeatureの除去を行う方法を取ってきた。本論文はこの状況を改善することを目的として、新しくRFE-Annealingという方法を提案している。この方法の目的は、除去するfeatureの選択に際するRFE ranking処理にかかる計算を縮小することで、遺伝子発現データからの事象予測の正確性を上げることである。従来のRFEでは一度に一つのfeatureしか除去しないが、RFE-Annealingでは一度に一群(複数)のfeatureを除去できる点に特徴がある。
 (以下、計算的処理に関する記述がされていました。)

Reference
・Guyon I et al. (2002)
 Gene Selection for Cancer Classification using Support Vector Machines.
 Machine Learning 46(1–3): 389-422

 一方、BICoB-2011で発表のあったWang J氏ら (Jillin Univ.) の発表の内容は、RFE-rankingの方法を改善し実際の遺伝子発現解析データ(GEO上にある公開データ)に適用したものでした。今、発表者との連絡のやり取りを続け、もっとこの方法について理解を深めようとしています。


TPM (Temporal pattern mining)とLC-MSによるタンパク質解析
・Analysis with time-dependency
・BICoB-2011での発表は、
 Sarrd F & Hoffert JD et al.
 Mining temporal patterns from iTRAQ mass spectrometry (LC-MS/MS) data.

・参考ウェブサイト(TPMについて)
 Automatic Temporal Pattern Extraction and Association (Pengyu Hong's Homepage)

 Temporal patternとは、経時的なシグナル系列において頻繁に繰り返されるもののことである。例えば、人の頭や手などの体の動きや音楽の楽曲などは経時的なシグナル系列とみなすことができる。体の動きのパターンはその人の癖であり、音楽のそれはメロディーである。
 データから抽出されるパターンは元の経時的な系列の特徴を示したものであり、ここから元のデータの要約やパターン同定をすることができる。しかし、活動性はしばしば様式を超えて起こるため、抽出された個々のパターンにはあまり意味がない。各々の様式を考慮して複数のパターン間の相関に注目することにより、意味のあるパターンを見出すことができる。
 著者(Hong P氏)らは、データからのtemporal patternの抽出から複数のパターンの関連付けまでの処理を自動的に行う方法の確立を目指している。

・参考論文
 Du X & Lipton MS et al. (2008)
 A Computational Strategy to Analyze Label-Free Temporal Bottom-Up Proteomics Data.
 J Proteome Res 7(8): 2595-2604

 (この論文の内容のうち、プロテオミクスにおけるTPMの必要性について)
 プロテオミクスは生体のdynamicsを捉えるために有効な方法であり、そのデータ解析法も進歩を重ねてきた。このプロテオミクスの利点を生かせるかどうかは、得られる膨大なデータをどのようにして効率良く処理できるかどうかに懸かる。この膨大なデータを処理するための一つの試みとして、temporal patternを明らかにすることが挙げられる。すでに、網羅的解析の繰り返しデータから欠損値を予測する方法は複数報告されていたが、経時的データについての欠損値は技術的もしくは生物学的に起こるものの他に、解析を行える時点 (time series) によっても生じる。そのため、経時的データから測定値のない部分を予測することが、時間依存性を理解するためには重要である。
 本論文は、LC-MSによる破壊的タンパク質解析についての経時的なデータからtemporal patternを抽出する手法を創出し、その方法を論述している。実際に、ある細胞に対して処置 (transition) を行った後0~18時間のものを試料とし、創出した手法の妥当性を検討している。

 この概念や手法は、私が生物学の研究で大事にしている「網羅的かつ経時的なデータ取得」と非常に強く結び付くものがあります。この論文を参考にして、今後の研究の進め方を現在考えています。