FASTA
出典: フリー百科事典『ウィキペディア(Wikipedia)』
FASTA は、DNA の塩基配列とタンパク質のアミノ酸配列のシーケンスアライメントを行うための、バイオインフォマティクスのソフトウェアパッケージである。
FASTA と同様にシーケンスアライメントを行うためのソフトウェアとしては、他に BLAST などがある。
FASTA の最初のバージョンは FASTP という名前であり、デヴィッド・J・リップマンとウィリアム・R・ピアスンが、1985年に開発して論文を書いた(Rapid and sensitive protein similarity searches)。 FASTP は、当初はタンパク質のアミノ酸配列のシーケンスデータベースに対して、アミノ酸配列の類似性 (similarity) の検索を行うように設計された。 FASTA の1988年のバージョン (Improved tools for biological sequence comparison の論文に書かれている) では、DNAの塩基配列の類似性を検索する機能が加えられた。 FASTA は、FASTP よりも精巧なアルゴリズムで処理を行い、統計上の有意性を評価する。 FASTA ソフトウェアパッケージには、タンパク質のアミノ酸配列やDNAの塩基配列のアライメントを行うための、いくつかのプログラムが含まれている。
FASTA は、"FAST-Aye" (ファストエー) と発音する。 FASTA は、"FAST-P" (Protein; タンパク質) アライメント と "FAST-N" (Nucleotide; ヌクレオチド) アライメント の総称である、"FAST-All" を意味している。
FASTA ソフトウェアパッケージの現在のバージョンでは、次のようなことができる。なお、シーケンスデータベースに与える検索のシーケンスをクエリーという。
- 塩基配列クエリー で 塩基配列データベースを検索
- 塩基配列クエリーをアミノ酸配列に翻訳して アミノ酸配列データベースを検索
- アミノ酸配列クエリー で アミノ酸配列データベースを検索
- アミノ酸配列クエリー で 塩基配列データベース(アミノ酸配列に翻訳)を検索
- 複数のペプチド(短いペプチド鎖) をクエリーとして アミノ酸配列データベースを検索
フレームシフト突然変異を考慮した検索も可能である。 Smith-Watermanアルゴリズムを実装した SSEARCH でのシーケンスデータベースの検索・比較をすることもできる(処理速度は遅くなる)。
FASTA ソフトウェアパッケージの主要な用途は、類似性の精密な統計値を計算することである。 類似性の統計値を計算することにより、生物学者は、どのアライメントが妥当性が高いかを判断することや、相同性 (homology) を推測することができる。
FASTA ソフトウェアパッケージは、ヴァージニア大学のFTPサーバから提供されている。(ftp.virginia.edu/pub/fasta)
[編集] FASTAフォーマット
FASTA では、シーケンスデータの記述形式として FASTAフォーマットという形式を使う。 FASTAフォーマットはプレーンテキストである。 FASTAフォーマットでの1つのシーケンスのデータは、">" で始まる1行のヘッダ行と、2行目以降の実際のシーケンス文字列で、構成される。 ヘッダ行では、">" の次にシーケンスデータを識別するための文字列を記述し、続けてそのシーケンスデータを説明する文字列を記述する(両方とも省略して良い)。 ヘッダ行の ">" と識別文字列の間にスペースを入れてはいけない。 FASTAフォーマットの全ての行は、80文字未満とすることが推奨される。 ">" で始まる別の行が出現すると、そこでシーケンスデータが区切られ、別のシーケンスデータが始まる。
FASTA ファイルフォーマットの例を示す。
>gi|5524211|gb|AAD44166.1| cytochrome b [Elephas maximus maximus] LCLYTHIGRNIYYGSYLYSETWNTGIMLLLITMATAFMGYVLPWGQMSFWGATVITNLFSAIPYIGTNLV EWIWGGFSVDKATLNRFFAFHFILPFTMVALAGVHLTFLHETGSNNPLGLTSDSDKIPFHPYYTIKDFLG LLILILLLLLLALLSPDMLGDPDNHMPADPLNTPLHIKPEWYFLFAYAILRSVPNKLGGVLALFLSIVIL GLMPFLHTSKHRSMMLRPLSQALFWTLTMDLLTLTWIGSQPVEYPYTIIGQMASILYFSIILAFLPIAGX IENY
FASTAフォーマットでは、IUB/IUPAC で規定されているアミノ酸コードもしくは核酸コードで、シーケンス文字列を記述する。 ただし、小文字で記述した場合は FASTA内部で自動的に大文字に変換される。 また、"-" (ハイフン) でギャップを、"U" でセレノシステインを、"*" で翻訳終止を記述する。 FASTAでは、クエリーのシーケンスに数字が含まれていると正しく処理をすることができない。 FASTAで処理を行う前に、数字は、除去しておくか、適切な文字列 ("N" は不明な核酸塩基、"X" は不明なアミノ酸 を意味する) に置き換ておく必要がある。
FASTA で使える核酸のコードは次のとおり。
核酸のコード | 意味 |
---|---|
A | Adenosine (アデニン) |
C | Cytidine (シトシン) |
G | Guanine (グアニン) |
T | Thymidine (チミン) |
U | Uracil (ウラシル) |
R | G A (puRine; プリン) |
Y | T C (pYrimidine; ピリミジン) |
K | G T (Ketone; ケトン) |
M | A C (aMino group; アミノ基) |
S | G C (Strong interaction; 強い結合) |
W | A T (Weak interaction; 弱い結合) |
B | G T C (not A) (B; A の次の文字) |
D | G A T (not C) (D; C の次の文字) |
H | A C T (not G) (H; G の次の文字) |
V | G C A (not T, not U) (V; U の次の文字) |
N | A G C T (aNy; 不明) |
- | ギャップ |
FASTA で使えるアミノ酸コードは次のとおり。
アミノ酸コード | 意味 |
---|---|
A | アラニン |
B | アスパラギン酸 もしくは アスパラギン |
C | システイン |
D | アスパラギン酸 |
E | グルタミン酸 |
F | フェニルアラニン |
G | グリシン |
H | ヒスチジン |
I | イソロイシン |
K | リシン |
L | ロイシン |
M | メチオニン |
N | アスパラギン |
P | プロリン |
Q | グルタミン |
R | アルギニン |
S | セリン |
T | スレオニン |
U | セレノシステイン |
V | バリン |
W | トリプトファン |
Y | チロシン |
Z | グルタミン酸 もしくは グルタミン |
X | 不明 (any) |
* | 翻訳終止 |
- | ギャップ |
[編集] 外部リンク
- FASTAフォーマットの説明 (英語)
- ヴァージニア大学のFTPサーバ - FASTAソフトウェアパッケージを配布している
- Rapid and sensitive protein similarity searches - FASTPの論文 (1985年、デヴィッド・J・リップマンとウィリアム・R・ピアスン)
- Improved Programs for Biological Sequence Comparison - FASTAの論文 (1988年、ウィリアム・R・ピアスンとデヴィッド・J・リップマン)