バイオインフォマティクス
出典: フリー百科事典『ウィキペディア(Wikipedia)』
バイオインフォマティクス (Bioinformatics) とは生命現象を情報の流れとして捉え、情報解析の手法を用いることによって生命現象を解析するという立場の生物学分野。生物情報学とも訳される。定義が対象ではなく手法によってなされているので、その研究内容は多岐に及び、ほとんど生物学全体が対象であるといってもよいが、配列情報からの遺伝子の発見、生体分子の構造解析、タンパク質の相互作用の予測などが主立った研究テーマとなっている。
近年ヒトゲノム計画などで大量の情報が得られる一方、それらの情報から生物学的な意味を抽出することが困難であることが広く認識されるようになり、コンピュータ (情報工学) を用いた大量解析が必要となってきているため、1990年代後半より注目されている。例としては、NCBI (GenBank) やDDBJなどから一般に利用可能なデータベースへの問い合わせを通じて、DNAやアミノ酸の配列を解析することなどが含まれる。
目次 |
[編集] 実施例
バイオインフォマティクスが具体的に活躍した研究として有名なものがヒトゲノム計画である。当初ヒトゲノム計画はある配列断片から順番に配列を解読する手法が考えられていたが、クレイグ・ベンターらによるショットガン法により遥かに高効率で解読が進められるようになった。ショットガン法はゲノム配列をバラバラな短い断片に分断してそれぞれを解読し、その後同一の配列を重複する領域として並べ替えることによってゲノム配列を再現するが、多くの断片がある中で正しい並び方を決定することはコンピュータの計算能力がなければ不可能である。
バイオインフォマティクスの研究領域のうち大きな部分を占めるのが相同性検索である。代表例としてBLASTが挙げられる。BLASTは配列 (シーケンス) の断片を問い合わせ情報として入力すると、その配列に最も類似した配列を NCBI (GenBank) などのデータベース中から検索する。BLASTの応用範囲は広く、クローニングした遺伝子の部分情報から遺伝子全体の配列を取得したり、構造が未知のタンパク質の2次構造を予測したり、解読されたゲノムの中から遺伝子を検出してその機能を予測するためにも用いられる。
マイクロアレイなどの網羅的な解析技術の発展に伴って、遺伝子発現のプロファイリング、クラスタリング、アノテーション(注釈)、大量のデータを視覚的に表現する手法などが重要になってきている。こういった個別の遺伝子、タンパク質の解析等から更に一歩進み、生命を遺伝子やタンパク質のネットワークとして捉え、その総体をシステムとして理解しようとするシステム生物学という分野もある。
[編集] 研究対象
ゲノムそのものを対象とするのが今までのバイオインフォマティクスであったが、最近はゲノムからの転写物の総体であるトランスクリプトーム、トランスクリプトーム(の一部)が翻訳されたタンパク質の総体であるプロテオーム、更に、ゲノムからの直接、転写・翻訳された実体ではなく、代謝ネットワーク (代謝マップ) によって生じた代謝産物をも含めた総体を考えるメタボローム、生物個体の表現形の総体であるフェノームなど、生物学全体を研究対象とする科学に拡大・発展しつつある。
[編集] バイオインフォマティクスとコンピュータ
バイオインフォマティクスの基本的なワークフローは、以下のようなものである。
この流れの中のあらゆる場面でコンピュータは使用される。パーソナルコンピュータ (PC) を利用したスクリプトによる小規模なシーケンスデータ加工から、産業技術総合研究所生命情報工学研究センターなどによるBule Geneのような20TFlopsのスーパーコンピュータから大規模なコンピュータ・クラスターやグリッド・コンピューティングを用いたタンパク質の立体構造解析(タンパク質構造予測)まで、様々なレベルのコンピュータ資源を用いた研究が行われている。
[編集] プログラミング言語
一般的な科学分野と同じように、いわゆる「重い」計算(タンパク質の二次、三次構造予測などはその一例)を行なうときにはC等の比較的低水準な言語が用いられるが、生命情報の最も基本的な構造が、塩基配列と言う巨大な「文字列」であるため、それらを処理するプログラミング言語としてはスクリプト言語であるPerlが盛んに用いられる。 これは、Perlが正規表現等の強力な文字列処理機能を持っているため配列解析に有効なことがひとつの理由である。また、生物学出身の研究者はプログラミングに関しては初心者であることが多いので、Perlが比較的学習が容易であることも理由のひとつである。更に、早い時期から生物学的データの加工に用いることのできるライブラリが整備されたため、事実上の標準的スクリプト言語となっている。このような経緯から、BioPerlから得られるライブラリを用いることで、ある配列の公開データベース (NCBI GenBank など) からの取得、GenBankフォーマットやEMBLフォーマットで記述されたファイルからの情報抽出、BLASTの自動化等が容易に行えるようになっている。
Perl以外にも多くのプログラミング言語用にバイオインフォマティクス用のライブラリが公開されており、BioJava (Java) 、BioPython (Python) 、BioRuby (Ruby) などから取得することができる。
[編集] データベース
生物学研究に用いられる主なデータベースは、以下のような種類に分類できる(カッコ内は例):
- 配列データベース(GenBank[1], Swiss-Prot)
- 立体構造データベース(PDB[2])
- パスウェイ・ネットワークデータベース(KEGG[3], BIND)
- マイクロアレイデータベース (ArrayExpress)
- 文献データベース(MEDLINE/PubMed[4])
- オントロジーデータベース(遺伝子オントロジー)
こうしたデータベースの黎明期には、フラットファイル(一般的なテキストファイル)としてデータが保存されてきたが、現在では多くのデータがRDBMSやXMLといった技術を用いて管理されている。生物学の研究においては、複数の公共データベースからのデータを使ったデータマイニングが非常に重要度を増しているため、データの相互利用と言う観点からも、XML、Webサービスなどの標準的技術の利用は今後も進んで行くと思われる。この考えを更に進め、セマンティック・ウェブ関連の技術(RDFやOWLなど)を利用した、コンピュータによるデータの相互利用を模索する動きもある。BioPaxプロジェクトなどはその一例である。
上記のようなデータベースに保存されるデータは、一次元の文字列(シーケンス全般)から、三次元構造のマトリクス (PDB) 、計算機科学におけるグラフ(ネットワークデータ全般)、遺伝子オントロジーのような非循環有向グラフ (DAG; directed acyclic graph) と言った非常に多岐にわたるデータ構造を持つ。従って、それらを有機的に結びつけ、有効に活用するためには、最新の情報関連技術が不可欠である。
日本語を母語とする人々にとっては、この様なデータベースを使用するには、いろいろなデータベースのサービスを提供している以下のような日本語のウェブページから使うのが、最初はてっとり早いことが多い。
[編集] ソフトウェア
バイオインフォマティクス的手法の普及により、非常に多くのソフトウェアが開発されている。多くのソフトウェアがオープンソースとして開発されており、研究者は自由に利用することができる。一例を挙げると、
- NCBI BLAST[5] - シーケンス・アライメントに用いられる代表的ソフトウェア。
- HMMER - 隠れマルコフモデルを利用するためのパッケージ。モチーフ検索などに用いる。
- R言語[6] - 統計解析のためのプラットフォーム。バイオインフォマティクスのためのBioconductorというパッケージも公開されている。
- Cytoscape - タンパク質・遺伝子ネットワーク可視化、マイニングのためのプラットフォーム。
データベースを基盤として必要とするソフトウェアは、開発元がWebブラウザから利用できるウェブアプリケーションとして公開している場合も多い。
[編集] 外部リンク
[編集] 関連項目
カテゴリ: バイオインフォマティクス | 生物学 | 生物学の研究技術