出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/10/14 02:55 UTC 版)
| 開発元 | InChI Trust |
|---|---|
| 初版 | 2005年4月15日[1][2] |
| 最新版 |
1.04 / 2011年9月
|
| 対応OS | Microsoft Windows and Unix-like |
| プラットフォーム | IA-32 and x86-64 |
| サイズ | 4.3 MB |
| 対応言語 | 英語 |
| サポート状況 | Active |
| ライセンス | IUPAC / InChI Trust Licence |
| 公式サイト | https://www.inchi-trust.org/ |
InChI(International Chemical Identifier)は、標準的かつ人間が読める方法で分子情報を提供し、またウェブ上でのデータベースからの情報の検索機能を提供する。元々、2000年から2005年にIUPACとNISTによって開発され、フォーマットとアルゴリズムは非営利であり、開発の継続は、IUPACも参画する非営利団体のInChI Trustにより、2010年までサポートされていた。現在の1.04版は、2011年9月にリリースされた。
1.04版の前までは、ソフトウェアはオープンソースのGNU Lesser General Public Licenseで無償で入手できたが[3]、現在は、IUPAC-InChI Trust Licenseと呼ばれる固有のライセンスとなっている[4]。
識別子は、情報のレイヤーとして化学物質を記述する。レイヤーには、原子とその結合、互変異性情報、同位体情報、立体化学、電荷の情報がある。しかし全てのレイヤーが提供される訳ではなく、例えば互変異性のレイヤーは省略されることがある。
広く用いられているCAS登録番号とは、以下の点で異なる。
そのため、InChIは、IUPAC命名法を一般化、極端な定式化したものと見なすことができる。単純なSMILES記法よりも多くの情報を表現でき、全ての構造が、データベースの応用に必要な独自のInChI文字列を持つ点が異なっている[要出典]。原子の3次元配列の情報はInChIでは表せず、この目的のためにはPDB等のフォーマットが用いられる。
InChIアルゴリズムは、入力された構造情報を、正規化(冗長な情報の除去)、標準化(各原子に固有の番号を生成)、整列化(特徴の文字列を付与)の3段階の過程で固有の識別子に変換する。
hashed InChIとも呼ばれるInChIKeyは、25文字の固定長であるが、デジタル表現なので人間には読むことができない。InChIKeyの仕様は、ウェブでの検索を可能にするために、2007年9月にリリースされた[5]。InChIそのものとは異なり、InChIKeyは一意ではなく、非常に稀ではあるが重複が発生する[6]。
2009年1月、InChIソフトウェアの最終の1.02版がリリースされた。これにより、いわゆるstandard InChIの生成が可能となった。standard InChIは、InChI文字列と、異なったグループによって生成されたキーの比較を容易にし、データベースやウェブ資源等の広範な情報源からのアクセスを可能にした。
| MIMEタイプ | chemical/x-inchi |
|---|---|
| 種別 | chemical file format |
全てのInChIは、InChI=という文字列から始まり、バージョン(現在は1)が続く。standard InChIでは、これにSの文字が続く。残りの情報は、レイヤーとサブレイヤーの配列として構造化され、各々のレイヤーは、1つの種類の情報を収める。レイヤーとサブレイヤーは、区切り文字 / で隔てられ、(メインレイヤーの化学式サブレイヤーを除き)固有の接頭文字で始まる。6つのレイヤーと各々の重要なサブレイヤーは、以下の通りである。
p)中性の系からプロトンを何個付加/除去するかを表すq)系の電荷を表すi, h、同位体立体化学に対しては b, t, m, s)f) - 原子の繋がり以外の、上記の一部または全てのレイヤーを含む。oサブレイヤーで終わってもよい。r) - 金属原子と再接続する全ての構造のInChIを含む。standard InChIには含まれない。区切り文字と接頭文字のフォーマットは、使用者が特定のレイヤーのみ合致する識別子を探すために容易にワイルドカード検索を実施できる点で優位性がある。
| CH3CH2OH エタノール |
InChI=1/C2H6O/c1-2-3/h3H,2H2,1H3 InChI=1S/C2H6O/c1-2-3/h3H,2H2,1H3 (standard InChI) |
| CH3N+H3 メチルアンモニウム |
InChI=1/CH5N/c1-2/h2H2,1H3/p+1 InChI=1S/CH5N/c1-2/h2H2,1H3/p+1 (standard InChI) |
L-アスコルビン酸 |
InChI=1/C6H8O6/c7-1-2(8)5-3(9)4(10)6(11)12-5/h2,5,7-10H,1H2/t2-,5+/m0/s1 InChI=1S/C6H8O6/c7-1-2(8)5-3(9)4(10)6(11)12-5/h2,5,7-8,10-11H,1H2/t2-,5+/m0/s1 (standard InChI) |
このフォーマットは、元々IChI(IUPAC Chemical Identifier)と呼ばれていたが、2004年7月にINChI(IUPAC-NIST Chemical Identifier)と改名され、同年11月にInChI(IUPAC International Chemical Identifier)に再改名され、IUPACの商標とされた。
InChIの管理は、IUPACのVIII小委員会で行われており、新しい標準の拡張のための調査等の経費は、IUPACとInChI Trustが負担している。InChI Trustは、InChIの発展、試験、文書整備のための資金を出している。現在の拡張では、重合体及び混合物、マルクーシュ構造、反応と有機金属の取扱いについて定義しており、VIII小委員会に承認されればアルゴリズムに加えられる。
InChIは、ChemSpiderやPubChem等を含む大小様々なデータベースに採用されている。しかし、多くのデータベースで構造とInChIの食い違いが見られ、リンク用データベースの課題となっている[7]。