Миргородська Н. А.
Київський національний університет імені Т.Шевченка, Україна
ФУНКЦІОНУВАННЯ АЛГОРИТМУ FASTA ТА ОСНОВНІ АЛГОРИТМИ МНОЖИННОГО ВИРІВНЮВАННЯ
Робота присвячена дослідженню впровадження в комп'ютерну науку «біологічних» методів аналізу інформації та генетичних алгоритмів, а саме до задачі моделювання просторової структури білка. Розглядається функціонування алгоритму FASTA на послідовності взятій з електронної бібліотеки NCBI GenBank та основні алгоритмів множинного вирівнювання з використанням серверу CLUSTALW .
(3 D-Фолдинг ) – пророкування просторової структури білків по амінокислотній послідовності, тобто по послідовності нуклеотидних пар в ДНК , є на сьогодні найактуальнішим питанням комп'ютерної біології, оскільки потребує величезних затрат сучасних технологій та застосувань великої кількості знань. Важливість його рішення складається ще й у тім, що число відомих первинних білкових структур, установлених по відомим нуклеотидним послідовностям ДНК , набагато перевершує число відомих просторових білкових структур. Ген лише кодує набір амінокислот, що лежать в основі молекули білка. У свою чергу, лінійна послідовність амінокислот у живій клітині згортаються в білкову молекулу зі строго певною просторовою структурою. Саме ця структура робить білок настільки вагомою складовою будь-якого живого організму.
Визначення просторової (тривимірної, 3D) структури білків є необхідним етапом для встановлення взаємозв‘язку між структурою та функцією білків і саме застосування молекулярного комп'ютерного моделювання дозволяє пророкувати багато властивостей білкових макромолекул.
При біохімічному синтезі білків організму використовується генетична інформація, закодована в головному "спадковому матеріалі" – дезоксирибонуклеїновій кислоті ( ДНК ) [1], що є двонитковою спіраллю з послідовно зв'язаних нуклеотидів , кожен з яких містить одну із 4 азотистих основ – аденін (А), гуанін (G), цитозин (С) і тімін (T). Ці літери складають «алфавіт» генетичного коду. Можна визначити «генетичну мову» з наступним алфавітом Х , де: D умовне позначення ДНК .
Х = { A , C , G , T } – алфавіт основ ДНК . (1)
Алфавіт основ ДНК (1) породжує алфавіт основ РНК виду, де: R умовне позначення РНК :
Х = { A , C , G , U } – алфавіт основ РНК . (2)
Відбувається процес транскрипції, тобто перенесення генетичної інформації на РНК з ДНК . Цей процес забезпечує "перекодування" інформації з перетворенням основ T ? U. Словами в алфавітах є послідовності букв – кодони – це впорядковані трійки (триплети), що кодують деяку амінокислоту . Результатом цих операцій є речення: AGTCCATGGTAC , а фрагментом опису синтезованої РНК , за допомогою правила комплементарності – речення : AGUCCUGGUAC . Оскільки білки організмів складаються з 20 амінокислот, тому з них можна закодувати словами з алфавіту амінокислот:
Х = { a 1, a 2,..., a 20}. (3)
Білок виконує метаболічні, структурні, або регуляторні функції в клітині, а 3-d структура визначає його функції. Для пророкування даних структур вирізняють [2]: квантово-механічний метод розрахунку ab initio ; напівемпіричний та методи класичної молекулярної механіки. Для білка, структуру якого моделюють, існує гомологічний білок, для якого вже експериментально встановлено просторову структуру, то атомні координати останнього можна використати як просторову матрицю для моделювання за гомологією. Він включає етапи [1]: пошук у банках даних білків-матриць з експериментально визначеною просторовою структурою, які мають високий ступінь гомології з АК-послідовністю білка-мішені, для якого будується структурна модель; вирівнювання послідовності з однією чи декількома послідовностями-матрицями; корекція вирівнювання; генерація ковалентно-неперервного ланцюга (каркаса) моделі на основі вирівнювання"; генерація "канонічних" поверхневих петель, отриманих з банків даних; " вбудова " бічних радикалів у каркас та їх оптимізації; добудова петель ab initio ; мінімізація вільної енергії всієї моделі, іноді з використанням молекулярної динаміки; перевірка моделі вибірковим повторенням попередніх етапів. З даним алгоритмом проведені експерименти за результатами яких отримані білки CTRB2 _ HUMAN Q6GPI1 та CTRB1 _ HUMAN P17538 [3] . Виконаний пошук у головному всесвітньому репозиторії PDB ( Protein Data Bank ) та побудовані моделі даних білків.
Список використаних джерел:
1. Bradley P. Toward High-Resolution de Novo Structure Prediction for Small Proteins . Science / P. Bradley , K.M.S . Misura , D Baker . – 2005. – С. 309, 1868 – 1871.
2. Advanced Computational Structural Genomics infection [Електронний ресурс]. – Режим доступу: http://cbcg.lbl.gov/ssi-csb/Meso.html
3. Електронний ресурс. – Режим доступу: http://www.uniprot.org/uniprot/Q6GPI1.html
4. Analysis of Genes and Genomes Richard J. Reece University of Manchester , UK /2004.
5. The protein folding problem : when will it be solved ? Curr . Opin . Struct . Biol . / K.A. Dill , S.B. Ozkan , T.R. Weikl , J.D. Chodera , V.A. Voelz . – 2007. – №17. – С. 342 – 346.
6. Assigning Amino Acid Sequences To 3-Dimensional Protein Folds , Faseb Journal / D. Fischer , Rice ., U. Bowie , Eisenberg . – 1996. – № 10. – С. 126 – 136 3.