Таксономічна база даних NCBI
Матеріал з Вікіпедії — вільної енциклопедії.
Таксономі́чна ба́за да́них NCBI є частиною бази GenBank, підрозділу Національного центру біотехнологічної інформації США (NCBI). Вона містить понад 165 000 організмів, які представлені в базах даних як мінімум однією нуклеотидною або білковою послідовністю. Таксономічний браузер (TaxBrowser) може використовуватися щоб проглянути позицію організму або таксону в таксономічної ієрархії або щоб отримати дані з будь-якої з основних баз даних системи Entrez для цього організму. TaxBrowser також дозволяє доступ до систем «Map Viewer», «BLAST» та «Trace Archive» через зовнішні посилання.
Пошук у базі даних може робитися за цілою, частковою або фонетичною назвою організму. На додаток до цього, посилання на організми, які часто використовують в біологічних дослідженнях, приведені окремо. Система відображення здатна показувати таксономічні дерева вибраного користувачем фрагменту всієї бази даних NCBI.
Зміст |
[ред.] Історія
Створена в 1988 році, NCBI стала домом бази даних нуклеотидних послідовностей GenBank. У той же час стала очевидною необхідність створення таксономічної бази даних щоб доповнити нуклеотидні бази даних. Проблеми з таксономіями, які використовують такі бази даних, були давно відомі: кожна з баз даних має свою власну таксономію, кожна відмінна від інших, і жодна не знаходяться в угоді з поточними таксономічними згодами (навіть якщо можна уявити, що така річ існує), і всі вони містять широку різноманітність різних видів помилок і неузгодженостей. В результаті, не завжди відомо (навіть в межах тієї ж бази даних), чи два записи належать до одного й того ж виду.
Щоб запобігти цих проблем, команда NCBI створила інструмент для інтеграції кількох відомих таксономічних баз як нуклеотидних баз даних, так і деяких інших, наприклад міжнародну систему ICTV для вірусів, USDA для рослин і FlyBase для Drosophilidae. Після цього була проведена конференція на базі морської біології в Мітч-Согін представників таксономічних баз даних та спеціалістів з систематики для уніфікації бази даних. Представники Європейської лабораторії молекулярної біології (EMBL), Швейцарської бази даних білків (SwissProt) та Японської бази даних ДНК (DDBJ) погодилися прийняти цю базу за таксономічний стандарт.
[ред.] Особливості
Однією з особливостей системи NCBI є можливість легкої модифікації виданих даних користувачем, щоб він міг розташувати їх згідно однієї з класичних систем. Другою – практично повний перехід на філогенетичну таксономію.
В результаті цього підходу, класичниа концепція таксономічних категорій (рангів) зникає. Наприклад, при редагуванні таксономічної бази протозой, співробітники NCBI замінили суфікси рангу родини (-idae, -ida, -iformes тощо) на загальні суфікси (-ids), хоча попередні назви залишилися у базі як синоніми, так що користувач може проводити по ним пошук.
Співробітники NCBI також намагаються зібрати статистику по використанню всіх можливих назв організму або таксону та формалізувати систему назв, приходячи до єдиного стандарту.
[ред.] Порівняння з іншими базами даних
База даних NCBI не була створена винятково спеціалістами із систематики та слідує дещо іншим цілям. Тому результуюча база даних дещо відрізняється від провідних винятково систематичних баз, таких як «Робоча група з таксономічних баз даних» (TDWG), «Міжнародна організація інформації про рослини» (IOPI) та «Види 2000» (Species 2000). Наприклад, база NCBI дещо менша через відсутність молекулярних даних, необхідних для точної класифікації (що є стандартом NCBI), для великої кількості організмів (хоча вона швидко поповнюється).
Ще одним відомим конкурентом є «Інтегрована система таксономічної інформації» (ITIS). ITIS перш за все використовує таксономічну літературу, яка спирається на екологічні дані. Система будується «зверху вниз», розташовуючи організми у відомій системі таксонів. На відміну від неї, система NCBI повинна знайти місце для кожного організму, яких потрапляє до молекулярних баз даних. Крім того, як вже було згадано вище, система NCBI використовує строго філогенетичний підхід, що іноді приводить до розбіжностей з класичними системами. В результаті система відрізняється значною кількістю «некласифікованих» організмів та груп, хоча вважається найточнішою з філогенетичної/кладистичної точки зору.
[ред.] Ресурси Інтернет
- Database resources of the National Center for Biotechnology Information – Опис ресурсів, пропонуємих NCBI, в тому числі таксономічної бази даних. (англійською мовою)
- The NCBI Taxonomy Project – Історія створення бази даних. (англійською мовою)
- A Workshop on the Compilation, Maintenance, and Dissemination of Taxonomic Authority Files – Порівняння різних баз даних. (англійською мовою)
- NCBI Taxonomy Browser
- ITIS
- Species 2000
- IOPI