化学データベース
出典: フリー百科事典『ウィキペディア(Wikipedia)』
化学データベース(かがくでーたべーす、chemical database)は化学情報を格納する目的で設計されたデータベースの総称である。多くの化学データベースは反応の過程で一過性に現れる様なものではなく、安定している分子の情報を格納する。化学構造の表現は、伝統的には、原子と化学結合を表す線分とを使用して、平面上に描かれる(2D構造)。この抽象化された表現は化学者向けの表現であり、この表現は計算化学や、特に検索や格納についていうならば適当な方式ではない。
化学データベースは、データ構成により化学物質データベース(化合物データベース)と化学反応データベースとに分けることが出来るが、化学反応は反応物の化学物質と生成物の化学物質を反応条件等で関連付けたデータ構成になるため、化学反応データベースは化学物質データベースの技術を基に構築されるのが普通である。
巨大な化学データベースは幾百万の化合物をテラバイト級のストレージに格納している。(2005年時点でCASは25,000,000項目の化合物を格納している)
目次 |
[編集] 表現方式
化学構造をデジタルデータベース上に実装する方法として、大別して2つの方式が存在する。
- 連結テーブル/接合マトリックス/リストを骨格として結合の様式(角度)や原子(節点)の属性を追加する方法
- 例) MDL社の MOL, PDB, CML記法等
- 深度優先あるいは幅優先リスト構造を基にした文字列化表現
- 例) SMILES記法, SMARTS記法, SLN記法, WLN記法
これらの方式を元に、立体化学の違いや有機金属化合物で見られるような特殊な原子価を表現し分けられる様に改良が加えられている。コンピューターが扱う表現形式で最も重要な評価すべき点はデータのサイズや検索時間の増加傾向とフレキシブル検索が可能であるか否かという点にある。
[編集] 検索
化学者は部分構造やIUPAC名の一部のような属性よる制約に類する検索条件を使ってデータベース検索を実行する。化学データベースは他の汎用データベースと異なり、部分構造検索を提供する点が特徴に挙げられる。この種の検索は部分グラフ同形法( Sub-graph Isomorphism; 時として単射; monomorphismと呼ばれる方法)やグラフ理論の応用により探索することが出来る。検索アルゴリズムは計算量でO (n3)ないしはO(n4)倍の複雑さで増大する(nは含まれる原子の数)。検索機能を集約したコンポーネントはatom-by-atom-searching (ABAS)と呼ばれ、検索対象分子構造の原子と結合からなる部分構造を探索できるように、検索できるようにマッピングを行っている。ABAS検索はウルマン・アルゴリズムかその変法を使って通常は実装される。検索速度の向上は分割実行により実現され、前処理により複数の検索タスクに分割されて格納される。前処理には、普通、分子のフラグメント構造の有り無しを表現するビット列に展開する作業も含まれる。検索構造がフラグメントにあるかどうか見つけるには、探索される分子構造とABAS比較される際に検索構造を表すフラグメント存在し得ないものを除外する必要がある。この除外操作はスクリーニングと呼ばれ、それを実装するのにビット列が使用され、それは構造キー(structural-keys)とも呼ばれる。このようなキーの検索効率はフラグメントを選択に使用するキーの組み立て方とデータベース中の分子構造にそのキーが存在する確率に依存する。他の種類のキー構築方法にフラグメントから算術式で導出されるハッシュ値を元にする方法が使用されている。この方法はフィンガープリントとも呼ばれるが、時としてこの語は構造キーと同義語のように使用される。構造キーやフィンガープリントを格納するのに必要な記憶容量は折りたたみ処理により低減され、キーの比較する部分をビット単位操作で比較するのであり、ビット列全体で比較しないことで高速化される。
[編集] 類似性
分子構造の類似性については、これ1つであると決められるような定義は存在しない。そして類似性の概念はプログラムにおける定義で依存しており、しばしば類似性の乖離度合いの逆数が使用される。2つの分子が他と比べて分子量の違いが小さい場合に類似性があるとする。また、他の種々の測定量を多変量解析で結合させて類似性とすることも見受けられる。乖離度合いは大別すると、ユークリッド距離と非ユークリッド距離とに分類される。
データベースは類似性に基づいて、「類縁」分子構造の集団にクラスター化することが出来る。階層的クラスタリングあるいは非階層的クラスタリングの両方の方式によって、化学的な登録項目とその属性を区分することも出来る。これらの化学的属性や分子構造の性質は実験的あるいは計算化学的に決定され、デスクリプタ(物質記述子)の導出に利用される。 一般的なクラスタリング手法の一つに、Jarvis-Patrickアルゴリズム(k-最小近傍法)が挙げられる。
[編集] 登録システム
レコードが化学物質として重複のないように管理されたデータベースシステムは登録システム(Registration systems)とも呼ばれる。これらのデータベースは化学物質の目録や特許システムあるいは産業用データベースとして広く利用されている。 登録システムは、通常、データベース内の化学的表現の揺らぎを特定の表現ルールに沿うように強制することで一意性を保っている。文字列化表現を発生する際に優先ルールを適用することで、「正規SMILES」のような、固有/「正規化」文字列表現を登録システムは格納することができる。 CASシステムのようなある種の登録システムは同一の登録項目に対して固有なハッシュ値(CAS登録番号)を発生させるアルゴリズムを採用している。
登録システムでは、塩化合物のハロゲンイオンの違いのような相違が検索上の違いとして無視されるように分子構造を前処理する場合もある。
[編集] ツール
コンピューターの内部表現は、通常は化学者にグラフィック表示装置上のデータとして提示するように処理される。データ項目は化学構造式エディターを介して容易に編集できるようになっている。この種のエディターは内部的に画像データとコンピューターの内部表現とを変換している。
数多くの内部表現のフォーマットが存在し、それらの間を変換する多数のアルゴリズムも存在している。この変換の為のオープンソースユーティリティの一つにOpenBabelが挙げられる。
IUPAC名を分子構造表現に変換したり、その逆変換を行うアルゴリズムもまた、文書から構造式情報を抽出するテキストマイニング(データマイニングの一技法)で利用される。しかし、言い回し方で発生するIUPAC名の別称の存在が問題を複雑にしている。固有化したIUPAC標準名を制定する動き(w:en:InChI)も存在する。
[編集] 関連項目
[編集] 外部リンク
- PubChem(英語)
- OpenBabel(英語)
- Chemical Abstracts Service(英語), 主要な化学データベースの一つ。
- ChemAxon/InstantJChem(日本語), Windows/Linux/MacOSXで動作する構造と反応のデータベースプログラム。スタンドアローンでの利用はフリー
- ChemAxon/JChemBase(日本語), Windows/Linux/MacOSX等で動作する強力な構造・反応の検索エンジン。条件を満たせばアカデミックおよび非商用の公開サイトでの使用はフリー。
- ACD/ChemFolder(英語), パソコンで動作する構造と反応のデータベースプログラム。
- MDL® ISIS/Base(英語), パソコンで動作する構造と反応のデータベースプログラム。
- CambridgeSoft/ChemFinder(英語), パソコンで動作する構造と反応のデータベースプログラム。
- Accelrys/Accord™(英語), パソコンで動作する構造と反応のデータベースプログラム。
- JOELib(英語), Javaで記述された化学データを取り扱うソフトウエアライブラリー。
- CDK(英語) 上記と同様な、化学データを取り扱う Javaのライブラリー。
- VCCLAB(英語) virtual computational chemistry laboratory。
- ALOGPS(英語) logPや水溶性等、種々のプログラムで計算したり比較することができるオンラインサービス。