Мы используем файлы cookie.
Продолжая использовать сайт, вы даете свое согласие на работу с этими файлами.

Модель замен

Другие языки:

Модель замен

Подписчиков: 0, рейтинг: 0

Модель замен (в биологии) - набор теоретических или эмпирических правил, описывающих процесс замещения нуклеотидов или аминокислот в ходе эволюции последовательности ДНК или белка.

Изменение нуклеотидных последовательностей в результате случайных замен нуклеотидов, инсерций и делеций ведет к дивергенции последовательностей в ходе эволюции. Такие изменения могут оставаться на уровне ДНК или же приводить к изменению белковой последовательности, в результате чего белок может утратить свою функциональность или приобрести новые свойства. Выбор правил, по которым одни нуклеотиды или аминокислоты замещаются другими с течением времени, является важной составляющей частью моделирования эволюции и тестирования филогенетических гипотез.

Предпосылки моделей замен

Реальные процессы, лежащие в основе изменения последовательностей, достаточно сложны: разные нуклеотиды могут мутировать с разной скоростью, эволюция одних сайтов может зависеть от эволюции в других участках последовательности, замещения в одних и тех же позициях могут происходить неоднократно. Все эти факторы увеличивают количество параметров модели, уменьшая точность оценивания. Поэтому для построения вычислимых моделей, используется ряд предпосылок, разной степени реалистичности.

Гипотеза молекулярных часов

Частой предпосылкой при построении вероятностных моделей эволюции является гипотеза молекулярных часов. В соответствии с этой гипотезой предполагается, что длина ветвей потомков зависит от числа замен на сайт, произошедших со времени их отделения от последнего общего предка (MRCA). В случае, если удается получить последовательности из ископаемых остатков, можно точно установить число замен на сайт за год для исследуемой ветви дерева. Считается, что модель имеет строгие молекулярные часы, если число замен в год постоянно для всех видов рассматриваемого дерева. Предположение о строгих молекулярных часах часто не реалистично. Например, несмотря на то, что грызуны генетически близки к приматам, скорость эволюции грызунов значительно выше (вероятно, из-за того, что длина поколения грызунов гораздо меньше, а уровень метаболизма и численность популяции выше). Модели, которые позволяют учитывать различную скорость эволюции в различных генеалогических линиях, называются нестрогими (свободными). Вариация скоростей эволюции между линиями обычно описывается экспоненциальным или логнормальным распределениями. Отдельный случай - так называемые локальные молекулярные часы. Эта модель позволяет исследователю выделить группы филогенетических линий, в каждой из которых действует своя модель строгих молекулярных часов.

Гипотеза нейтральности, независимости и конечности числа сайтов

Большинство моделей замен основано на предпосылках о нейтральности, независимости и конечности числа сайтов. Нейтральность подразумевает, что в соответствии с нейтральной теорией молекулярной эволюции большая часть замен не подвержена отбору, а значит, по числу замен между последовательностями мы можем судить о времени дивергенции между ними. Независимость в данном случае указывает на то, что замена в данной позиции не влияет на замены в соседних. Конечность числа сайтов ведет к тому, что замены в данной позиции могут происходить многократно в ходе эволюции. Это значит, что рассматривая две выровненные аминокислоты (А и L) в гомологичных последовательностях, мы обычно не знаем, произошла ли здесь замена А на L, или, например, замена А->S->T->L.

Классификация моделей замен

Существует два основных подхода к созданию модели:эмпирический и параметрический (Lio and Goldman, 1998).

Параметрические модели замен

Параметрические модели замен были разработаны, преимущественно, для нуклеотидных последовательностей. В таких моделях вероятность замен определяется как функция от ряда параметров, которые оцениваются для каждого набора изучаемых данных (как правило, методом максимального правдоподобия). При этом рассматриваются два основных класса параметров: 1) параметры частот нуклеотидов и 2) параметры скорости (rate) замен. Наиболее часто используются модели из семейства GTR (General Time-Reversible, Simon Tavaré 1986). К этому семейству относятся все стандартные модели нуклеотидных замен (JC69, K80 или K2P, F81, HKY85, TN93, GTR), реализованные в стандартных пакетах для филогенетического анализа, таких как MEGA, PAUP, PHYLIP и PHYML.

Эмпирические модели замен

Эмпирические модели замен успешно работают для построения выравниваний и оценки филогенетического родства белковых последовательностей. Для оценки вероятности замещения аминокислот используются эмпирические матрицы замен, такие как BLOSUM, PAM, WAG, JTT, которые были получены на основе статистического анализа частот наблюдаемых замен в наборах консервативных белковых доменов разной степени эволюционной дивергенции.

Основные нуклеотидные модели замен

Для описания эволюции нуклеотидных последовательностей наиболее часто используются параметрические модели из семейства GTR (General Time-Reversible models). К этому семейству относятся все стандартные модели нуклеотидных замен (JC69, K80 или K2P, F81, HKY85, TN93, GTR), реализованные в стандартных пакетах для филогенетического анализа, таких как MEGA, PAUP, PHYLIP и PHYML. Эти модели различаются по числу оцениваемых параметров и, соответственно, по реалистичности предпосылок.

В самом общем виде модель GTR (Tavaré 1986) не делает никаких предпосылок относительно частот нуклеотидов и вероятности замены между ними. Она требует оценки четырёх параметров для равновесных частот нуклеотидов $\Pi =(\pi _{1},\pi _{2},\pi _{3},\pi _{4})$ и шести параметров скорости замен между ними:

{\begin{aligned}\alpha =r(T\rightarrow C)=r(C\rightarrow T)\\\beta =r(T\rightarrow A)=r(A\rightarrow T)\\\gamma =r(T\rightarrow G)=r(G\rightarrow T)\\\delta =r(C\rightarrow A)=r(A\rightarrow C)\\\epsilon =r(C\rightarrow G)=r(G\rightarrow C)\\\eta =r(A\rightarrow G)=r(G\rightarrow A)\end{aligned}}

Итоговая матрица скорости замен в такой модели будет иметь вид:

Q={\begin{pmatrix}{-(\alpha \pi _{C}+\beta \pi _{A}+\gamma \pi _{G})}&{\alpha \pi _{C}}&{\beta \pi _{A}}&{\gamma \pi _{G}}\\{\alpha \pi _{T}}&{-(\alpha \pi _{T}+\delta \pi _{A}+\epsilon \pi _{G})}&{\delta \pi _{A}}&{\epsilon \pi _{G}}\\{\beta \pi _{T}}&{\delta \pi _{C}}&{-(\beta \pi _{T}+\delta \pi _{C}+\eta \pi _{G})}&{\eta \pi _{G}}\\{\gamma \pi _{T}}&{\epsilon \pi _{C}}&{\eta \pi _{A}}&{-(\gamma \pi _{T}+\epsilon \pi _{C}+\eta \pi _{A})}\end{pmatrix}}

Напротив, наиболее простая модель JC (Jukes and Cantor 1969), делает наибольшее число упрощающих предпосылок и требует оценки всего одного параметра. Модель предполагает равные частоты всех нуклеотидов $\left(\pi _{A}=\pi _{G}=\pi _{C}=\pi _{T}={1 \over 4}\right)$ и одинаковую скорость замен между всеми нуклеотидами $\mu$ (единственный параметр модели). Матрица скорости замен в такой модели принимает вид:

P={\begin{pmatrix}{{1 \over 4}+{3 \over 4}e^{-t\mu }}&{{1 \over 4}-{1 \over 4}e^{-t\mu }}&{{1 \over 4}-{1 \over 4}e^{-t\mu }}&{{1 \over 4}-{1 \over 4}e^{-t\mu }}\\\\{{1 \over 4}-{1 \over 4}e^{-t\mu }}&{{1 \over 4}+{3 \over 4}e^{-t\mu }}&{{1 \over 4}-{1 \over 4}e^{-t\mu }}&{{1 \over 4}-{1 \over 4}e^{-t\mu }}\\\\{{1 \over 4}-{1 \over 4}e^{-t\mu }}&{{1 \over 4}-{1 \over 4}e^{-t\mu }}&{{1 \over 4}+{3 \over 4}e^{-t\mu }}&{{1 \over 4}-{1 \over 4}e^{-t\mu }}\\\\{{1 \over 4}-{1 \over 4}e^{-t\mu }}&{{1 \over 4}-{1 \over 4}e^{-t\mu }}&{{1 \over 4}-{1 \over 4}e^{-t\mu }}&{{1 \over 4}+{3 \over 4}e^{-t\mu }}\end{pmatrix}}

Модель JC плоха тем, что не учитывает некоторых важных свойств эволюции ДНК, таких как разные частоты транзиций (замен одного пуринового основания на другое, либо одного пиримидинового основания на другое.) и трансверсий (замен пуринового основания на пиримидиновое, и наоборот), а также неравенство частот нуклеотидов в реальных нуклеотидных последовательностях. Недостатком модели GTR является большое число параметров, затрудняющее оценивание модели. Поэтому на практике часто применяются промежуточные модели, ослабляющие часть предпосылок JC. Например, модель K80 (Kimura 2-parameter 1980) предполагает равные частоты нуклеотидов, но разные скорости транзиций и трансверсий.

Модели семейства GTR

Ниже приведен список наиболее часто встречающихся моделей семейства GTR. Модель называется “вложенной” (nested) в другую модель, если данная (более простая) модель эквивалентна более сложной со специфическими настройками. Например, модель JC вложена в K2P. То есть, JC - это частный случай модели K2P: если задать в K2P одинаковую частоту транзиций и трансверсий, то модели станут эквивалентны.

Jukes-Cantor (JC)

Модель Джукса-Кантора (Jukes and Cantor 1969) наиболее простая. Она предполагает одинаковые частоты нуклеотидов (25%) и одинаковую вероятность замещения между любой парой нуклеотидов . Эта модель редко используется для филогенетического анализа реальных данных .

Felsenstein 1981 (F81)

Модель Фельштейна можно рассматривать как расширение модели Джукса-Кантора. Частоты нуклеотидов могут отличаться от 0.25, все замены одинаково вероятны (Felsenstein 1981)

Kimura 2-parameter (K80)

Предполагает одинаковые частоты встречаемости нуклеотидов, вероятность замен различна для транзиций и трансверсий (Kimura 1980).

Hasegawa-Kishino-Yano (HKY)

Эта модель позволяет одновременно использовать дополнительные параметры, введенные в моделях Фельштейна и Кимуры. Частоты нуклеотидов могут различаться, вероятность замен различна для транзиций и трансверсий (Hasegawa et. al. 1985).

Tamura-Nei (TrN)

Модель предполагает различные частоты встречаемости нуклеотидов. Вероятность замен одинакова для трансверсий, может различаться для транзиций (Tamura Nei 1993).

General time reversible (GTR)

Наиболее сложная модель - GTR. Она использует различные частоты нуклеотидов (4 параметра), и различные частоты замен между нуклеотидами (6 параметров)( Lanave et al. 1984, Tavare 1986, Rodriguez et. al. 1990).

Гамма-распределение вариации частот между сайтами

Модель замен можно дополнить оценкой вариации частот между сайтами. Скорость мутирования не одинакова по всей длине последовательности. Сайты, находящиеся под постоянным положительным отбором (например, антигенные детерминанты) изменяются чаще, чем сайты связывания белков, находящиеся под отрицательным обором. В кодирующих последовательностях замены во второй позиции в большинстве случаев несинонимичны, и случаются намного чаще, чем замены в третей позиции (синонимичные). Частота замен в различных позициях варьирует согласно гамма-распределению (Uzzel and Corbin, 1971; Jin and Nei, 1990; Tamura and Nei, 1993; Wakeley, 1993, Yang, 1996). Форма Гамма-распределения определяется параметром a. При a<1 оно похоже на экспоненциальное, при увеличении a становится все более похожим на нормальное. Чем большее различие в частотах замен мы ожидаем найти в последовательности, тем меньшее значение параметра a следует использовать. В перечисленных выше моделях можно учесть различие частот замен в разных позициях. Кроме гипотезы о гамма-распределении частоты замен, модель может быть дополнена параметром, описывающим долю инвариантных сайтов в последовательности - то есть консервативных сайтов, находящихся под действием отрицательного отбора.

Основные аминокислотные модели замен

Расстояния между кодирующими последовательностями измеряются более точно, если использовать подходы, основанные на сравнении не нуклеотидных, а аминокислотных последовательностей. Изменение аминокислоты в белке происходит вследствие случайной замены нуклеотидов. Однако вероятность того, что произошедшая замена закрепится, зависит от сходства пары аминокислот, между которыми происходит замена. Сходные по свойствам (гидрофобность, размер, заряд и др) аминокислоты чаще замещаются между собой, так как это не влияет на функцию белка. (Это верно для большинства белков, в соответствии с теорией нейтральности и по причине преобладания отрицательного отбора. Для антигенных детерминант ситуация может быть иной). Кроме того, вероятность замещения зависит от частоты встречаемости данных аминокислот в природе, и от количества нуклеотидных замен (1, 2 или 3), которые отличают пару аминокислот.

В отличие от моделей замен ДНК (нуклеотидной модели замен), наиболее распространенные аминокислотные модели замен разработаны эмпирически. Исходя из экспериментальных наблюдений, для каждой аминокислоты можно оценить вероятность её сохранения или замещения каждой другой аминокислотой в различных группах гомологичных белков. Соответственно, каждому событию (сохранение аминокислоты или её замещение другой аминокислотой) можно присвоить определённые значения (положительные или штрафы), в зависимости от вероятности этих событий. Эти значения можно представить в виде таблицы (матрицы) и использовать при расчете аминокислотных дистанций. При таком подходе менее вероятные (менее частые) замещения будут учитываться как значительно больше увеличивающие дистанцию между последовательностями, чем более вероятные замещения. Получаемые матрицы замен симметричны, то есть вероятность замены L->S равна вероятности S->L.

В моделях замен аминокислот не разделяются параметры частоты встречаемости аминокислот и вероятности их замещения друг на друга. В качестве модели замен используются матрицы, в которых эти параметры совмещены (в силу их эмпирической природы). Матрица замен аминокислот — это таблица (матрица) размером 20x20, каждая ячейка которой описывает вероятность замещения аминокислоты из i-й строки на аминокислоту из j-го столбца за определённый отрезок времени. Направление замещения не играет роли (матрицы замен симметричны). Проще всего предположить, что замещение аминокислоты на другую запрещено. Тогда вероятность того, что аминокислота не изменилась, равна 1. Матрица замен для этой модели выглядит следующим образом:

${\begin{bmatrix}1&0&\cdots &0&0\\0&1&&0&0\\\vdots &&\ddots &&\vdots \\0&0&&1&0\\0&0&\cdots &0&1\end{bmatrix}}$

Эта матрица может быть применена для грубого анализа белков с высоким уровнем сходства, но для сильно дивергировавших последовательностей она абсолютно непригодна. Для точной оценки генетических дистанций требуется рассчитать более соответствующие действительности вероятности замещений между каждой парой аминокислот. Наилучшие результаты дает вычисление этих вероятностей из сетов предварительно выровненных последовательностей.

Эмпирические модели замен

Матрицы PAM

PAM (point accepted mutation) — закрепившаяся точечная мутация — замена одиночной аминокислоты, произошедшая в результате естественного отбора. Это определение не включает в себя все точечные мутации, происходящие в организме. Молчащие замены, летальные мутации и мутации, отбракованные отбором, не являются «закрепившимися точечными мутациями» в данном контексте. Матрицы класса PAM, разработанные Дэйхофф с коллегами (Dayhoff et al. 1978) были первыми матрицами, основанными на вероятностях замещения аминокислот. Частоты замен были получены из выравниваний родственных белков, обладающих не менее чем 85 % сходством. Высокий уровень сходства позволяет надеяться, что различия в данной позиции с большой вероятностью будут результатом одной, а не нескольких последовательных замен. На основе полученных выравниваний была рассчитана матрица PAM1. Запись в i-й строке j-го столбца матрицы PAM1 соответствует вероятности того, что аминокислоты i и j заменились одна на другую в результате одной или нескольких «закрепившихся точечных мутаций» в течение эволюционного времени, соответствующего 1 % замен между парой последовательностей (замещается 1 из 100). Из матрицы PAM1, путём возведения её в степень n, получены матрицы PAMn (PAM50, PAM250 и др). Каждая из этих матриц рассчитана на анализ последовательностей, эволюционное время между которыми достаточно для того, чтобы произошло n мутаций на 100 аминокислот. (В некоторых позициях за это время может произойти больше одной замены.) Таким образом, информация о вероятностях замен в близкородственных последовательностях экстраполируется на менее родственные.

Матрицы JTT

Эта группа матриц разработана так же, как матрицы PAM, но на выравниваниях белков из более современных баз данных (Jones et al. 1992; Gonnett et al, 1992). Также существует матрица, специально разработанная на выравниваниях множества трансмембранных белков (Jones et al, 1994), предназначена определения дистанций между трансмембранными белками.

Матрицы BLOSUM

Рис. 1. Матрица BLOSUM62

Использованный Дэйхофф методологический подход сравнения близкородственных последовательностей не всегда оптимален при анализе последовательностей, связанных дальним родством. Эта проблема решается в матрицах класса BLOSUM (Block substitution matrices, Henikoff and Henikoff, 1992). Разработка матриц BLOSUM основывается на анализе только консервативных участков (блоков) не близкородственных последовательностей. Эти участки расцениваются как функционально значимые. Используются матрицы BLOSUM62, BLOSUM50, BLOSUM30 и др. (большее число соответствует большей схожести последовательностей). Матрица BLOSUMn вычислена на основе выравнивания последовательностей, сходных не более, чем на n%. (Например, матрица BLOSUM62 основана на выравнивании белков, сходных не более, чем на 62 %). Таким образом, в отличие от матриц PAM, здесь не используется экстраполяция, и матрицы, предназначенные для анализа сильно дивергировавших последовательностей, основаны на анализе блоков, имеющих тот же уровень дивергенции.

Оценки в матрице BLOSUM представляют собой логарифм отношения вероятности того, что две аминокислоты в выравнивании родственны к вероятности того, что они не родственны, а сопоставлены в выравнивании по случайным причинам:

S_{ij}=\left({\frac {1}{\lambda }}\right)\log {\left({\frac {p_{ij}}{q_{i}*q_{j}}}\right)}

Здесь $p_{ij}$ — вероятность того, что аминокислоты $i$ и $j$ родственны и заместили друг друга в процессе эволюции, а $q_{i}$ и $q_{j}$ — вероятности встречи соответствующих аминокислот $i$ и $j$ в случайной белковой последовательности. Коэффициент $\lambda$ добавлен для приведения значений матрицы к целочисленным.

Матрицы BLOSUM62 используются (по умолчанию) для оценки качества выравнивания белковых последовательностей в таких программах, как BLAST.

Матрица для митохондриальных белков позвоночных

Adachi and Hasegawa (1996) разработали матрицу, основанную на описании замен в митохондриальных белках 20 видов позвоночных. Авторы показывают, что эта модель позволяет строить налучшие филогении при работе с митохондриальными белками.

Параметрические модели замен

Оценка дистанции по Пуассону (повторные мутации)

Простая теоретическая модель замещения аминокислот была предложена Nei (1987). При учёте множественных замещений в одной позиции предполагают, что число замещений в различных позициях варьирует в соответствии с распределением редких событий Пуассона. Этот метод позволяет неплохо оценивать число аминокислотных замен для близкородственных видов.

Гамма-распределение вариации частот между сайтами

При выравнивании аминокислотных последовательностей (так же, как для нуклеотидных) можно учесть неравномерность скоростей эволюции разных сайтов. Частота замен в различных позициях варьирует согласно гамма-распределению (Nei at all, 1976). Коррекцию оценки выравнивания на неравномерность скоростей эволюции можно задать во многих программах для выравнивания последовательностей.

Модели замен в вероятностном подходе к филогении

Вероятностный подход к филогении применяется для сравнения и оценки качества филогенетических деревьев, а также для тестирования различных эволюционных гипотез (например, вероятность нахождения группы организмов на одной ветке дерева).

Цель подхода состоит в том, чтобы проранжировать деревья или в соответствии с их вероятностью Р(данные|lдерево) или (используя Байесовский подход) по их постериорной вероятности P(дерево|данные). Одной из предпосылок этого подхода является выбор модели замен, в соответствии с которой изменяются последовательности на ветках дерева.

Пусть P(x*|T,t.) - это вероятность набора данных при условии дерева. Данные x* - это набор из n последовательностей x^j , j=1...n. T - это дерево с n листьями и последовательностью j на листе j, а t. - это длины ребер дерева. Далее редположим, мы можем определить P(x|y,t), вероятность того, что предковая последовательность y преобразовалась в последовательность x за период времени t. Тогда вероятность дерева Т с предковыми последовательностями, приписанными к вершинам, может быть получена путём перемножения вероятностей для всех ветвей дерева, например:

Для задания каждой конкретной P(x|y,t), вероятности того, что последовательность х образовалась из последовательности y за время t, используется модель замен. Модели могут применяться как для нуклеотидных, так и для аминокислотных последовательностей. В простейшем случае предполагается, что изменения в каждом сайте происходят независимо, а делеции и вставки не происходят. Такая модель, дополненная вероятностями делеций и вставок, позволяет более реалистично описать марковский процесс, в результате которого последовательность символов (нуклеотидов или аминокислот) изменяется с течением времени.

Обозначим за P(b|a) вероятность того, что символ a был заменен символом b за период времени длиной t. Тогда для двух выровненных последовательностей без гэпов х и у, $P(x|y,t)=\prod _{u}P(x_{u}|y_{u},t)$ , где u - позиция в выравнивании.

Для алфавита размером К вероятности замен P(b|a,t) для всех пар символов а и b образуют матрицу S(t) размером ${K\times K}$ :

S(t)={\begin{pmatrix}P(A_{1}|A_{1},t)&\ldots &P(A_{k}|A_{1},t)\\\vdots &\ddots &\vdots \\P(A_{1}|A_{k},t)&\ldots &P(A_{k}|A_{k},t)\end{pmatrix}}\,.

Конкретный вид матрицы S(t) рассчитывается на основе выбранной модели замен. Так, в модели JC эта матрица принимает вид:

S(t)={\begin{pmatrix}r_{t}&s_{t}&s_{t}&s_{t}\\s_{t}&r_{t}&s_{t}&s_{t}\\s_{t}&s_{t}&r_{t}&s_{t}\\s_{t}&s_{t}&s_{t}&r_{t}\end{pmatrix}}\,.

При этом r_t=s_t=1/4 при $t\rightarrow \infty$

В модели К80 матрица условных вероятностей замен S(t) примет вид:

S(t)={\begin{pmatrix}r_{t}&s_{t}&u_{t}&s_{t}\\s_{t}&r_{t}&s_{t}&u_{t}\\u_{t}&s_{t}&r_{t}&s_{t}\\s_{t}&u_{t}&s_{t}&r_{t}\end{pmatrix}}\,.

Аналогичным образом могут использоваться эмпирические модели замен для белковых последовательностей.

Выбор наилучшей параметрической модели замен (для конкретного выравнивания)

В общем случае, следует выбирать наиболее простую модель (с минимумом параметров), которая адекватно описывает данные. Более сложную модель следует предпочесть, если она позволяет добиться большего увеличения качества дерева на исследуемых данных, чем если применить её к случайным данным.

Методы, которые используются для выбора наилучшей модели замен:

1)Иерархический тест отношения правдоподобия Тест отношения правдоподобия применяется только для попарного сравнения “вложенных” моделей (Felsenstein, 1981; Huelsenbeck and Crandall, 1997) Для вычисления LRT нужно сравнить оценки правдоподобия двух сравниваемых моделей L1 и L2: LR = 2*(lnL1-lnL2) Распределение LRT статистики близко к распределению хи-квадрат. Поэтому для определения статистической значимости различий между двумя моделями нужно определить число степеней свободы. Оно соответствует числу дополнительных параметров, вводимых в более сложную модель для того, чтобы она совпала с простой. Например, нужно настроить 4 параметра в HKY85, чтобы она совпала с GTR. Этой информации достаточно, чтобы определить критическое значение тестовой статистики из стандартных таблиц.

2)Информационный критерий Акаике (Hurvich and Tsai 1989, Sugiura 1978).

3)Байесовский информационный критерий (Schwarz 1978).

Программы, с помощью которых можно подобрать наилучшую модель: jModelTest, PartFinder, MEGA, TreeFinder.

Литература

Р.Дурбин, Ш.Эдди, А.Крогг, Г.Митчисон (2006). "Анализ биологических последовательностей". М.-Ижевск: НИЦ "Регуляторная и хаотическая динамика", Институт компьютерных исследований - 480с. В.В.Лукашов (2009). "Молекулярная эволюция и филогенетический анализ". М.-Бином. Лаборатория знаний - 228с.