SMILES
Материал из Википедии — свободной энциклопедии
SMILES (англ. SMILES) — система правил (спецификация) однозначного описания состава и структуры молекулы химического вещества с использованием таблицы компьютерных символов ASCII. Название является аббревиатурой от английского выражения Simplified Molecular Input Line Entry Specification (спецификация упрощенного представления молекул в строке ввода). Название в английском языке имеет неоднозначность, являясь омонимом к слову smiles (улы́бки), однако пишется только прописными буквами. В русском языке однозначного аналога не имеет, рекомендуется употребление на языке оригинала. Произносится: сма́йлз.
Строка символов, составленная по правилам SMILES, может быть преобразована многими молекулярными редакторами в двухмерную или трёхмерную структурную формулу молекулы.
Первоначальный вариант спецификации SMILES был разработан Артуром Вейнингером (Arthur Weininger) и Дэвидом Вейнингером (David Weininger) в конце 1980-х. Он был модифицирован и расширен, в основном усилиями компании Daylight Chemical Information Systems Inc.
Остальные 'линейные' notations включают Wiswesser Line Notation (WLN), ROSDAL и SLN (Tripos Inc). В последнее время IUPAC ввел InChI в качестве стандарта для представления формул.
SMILES рассматривается, как система, имеющая преимущества перед InChI, в частности - несколько лучшее восприятие формул человеком; it also has a wide base of software support with extensive theroretical (eg, graph theory) backing.
Содержание |
[править] Разновидности
Различают две разновидности спецификации:
- «Каноническая SMILES» (Canonical SMILES) — версия спецификации, включающей правила, позволяющие записать формулу молекулы любого вещества уникальным образом. Наиболее широко она применяется для индексирования и проверки уникальности молекул в базах данных.
- «Изомерическая SMILES» (Isomeric SMILES) — версия спецификации, включающая расширения, которые позволяют включать в запись данные о нуклидах, хиральности и конфигурациях двойных связей. Особенность этой версии в точном отражении хиральности.
[править] Определение в терминах теории графов
[править] Основные положения и примеры
Атомы записываются стандартными обозначениями химических элементов в парных квадратных скобках, например [Au] для золота. Гидроксильный анион записывается [OH-]. Скобки могут быть опущены для «органических элементов» — B, C, N, O, P, S, F, Cl, Br, и I. Все остальные элементы должны заключаться в скобки. Если скобки опущены, то водородные атомы не записываются. Например, формула SMILES для воды — просто O, а для этанола — CCO.
Двойная связь, например, в двуокиси углерода записывается O=C=O. Тройная связь, например в синильной кислоте записывается C#N.
Разветвления записываются с помощью парных круглых скобок, например CCC(=O)O для пропионовой кислоты, и C(F)(F)F для фтороформа. Последний может быть записан в неканонической форме как FC(F)F.
Циклогексан записывается как C1CCCCC1, правило заключается в том, что два номера 1 обозначают одинаковое положение атомов в молекуле и таким образом представляется цикл из шести атомов углерода.
Ароматичность углеродного цикла, атомы кислорода, серы и азота записываются строчными буквами 'c', 'o', 's' и 'n' соответственно. Связи в ароматическом цикле редко указываются явным образом, за исключением варианта SMARTS. Так, формула бензола записывается c1ccccc1.
[править] Изомерическая SMILES
Конфигурация относительно двойной связи записывается при помощи знаков «/» и «\». Например, F/C=C/F соответствует транс-дифторэтану, в котором атомы фтора находятся по разные стороны от двойной связи, а F/C=C\F или F\C=C/F сответствует цис-дифторэтану, в котором атомы фтора находятся с обной стороны от двойной связи, как представлено на рисунке.
[править] Расширения
SMARTS — модификация SMILES, которая позволяет использовать неупорядоченную структуру атомов и связей. Широко используется в системах поиска в базах данных о веществах. Практика применения вызвала распространённое заблуждение, что в компьютерном поиске структур производится сравнение записей-цепочек, в то время как производится гораздо более производительное сравнение графов, построенных на основании формул SMILES.
[править] Преобразования
Формула SMILES может быть преобразована в двухмерною структурную формулу при помощи алгоритма (Structure Diagram Generation algorithms), разработанного Хелсоном (Helson, 1999). Преобразование не всегда даёт однозначный результат. Преобразование в трехмерную структурную формулу производится с использованием принципа минимальной энергии образования вещества.
[править] См. также
- Молекулярный редактор
- Международный химический идентификатор (InChI)
[править] Литература
- Helson, Harold E. (1999) Structure Diagram Generation. Reviews in Computational Chemistry 13, 313-98, Eds. Lipkowitz, K.B, Boyd, D.B., Wiley-VCH Press.
[править] Внешние ссылки
- [1]. «SMILES — упрощённый химический язык»
- [2]. Учебное пособие по SMILES
- Web-приложения для работы с формулами SMILES
- [3] - Daylight Depict
- CACTVS at NCI GIF/PNG конвертор с дополнительными функциями
- [4] онлайн-редактор PubChem, поддерживающий SMILES/SMARTS, InChI и все распространённые форматы химических формул
- [5] апплет для молекулярного редактора JME , позволяющий создавать формулы SMILES
- Parsing SMILES
- ACD/ChemSketch свободно распространяемый молекулярный редактор
- [6] программа Jmol для просмотра формул SMILES
- [7] молекулярный редактор ChemAxon
- [8] молекулярный редактор Ed Molecule для Linux, который может читать и записывать формулы SMILES
- E-BABEL онлайн конвертор молекул на WWW на основе OpenBabel