Продолжая использовать сайт, вы даете свое согласие на работу с этими файлами.
Предсказание генов
Предсказа́ние ге́нов — это определение кодирующих и регуляторных последовательностей ДНК в геноме: белковых генов и генов некодирующих РНК, промоторов, энхансеров и прочее.
Ранние методы поиска генов основывались на трудоёмких экспериментах с живыми организмами и клетками, которые давали лишь приближённый результат. Статистический анализ частот кроссинговера между известными генами позволял узнать, как они расположены на хромосоме относительно друг друга, и в итоге составить генетическую карту. Сегодня же, благодаря развитию компьютерной техники и методов полногеномного секвенирования, предсказание генов стало рутинной задачей в биоинформатике.
Необходимо различать предсказание функциональных участков от предсказания функции или продукта гена. Строгое определение функции или доказательство существования какого-либо белка может основываться только на экспериментальной работе, хотя современной биоинформатике уже удаётся с высокой точностью определять функцию гена только по его последовательности.
Предсказание генов — один из ключевых этапов в аннотации генома вида, следующий за маскированием повторов и оценкой качества его сборки.
Существует множество алгоритмов, разработанных в последние десятилетия, позволяющих определить точное положение гена в геноме. Существуют три основных подхода к предсказанию генов в геноме: эмпирический (внешний), неэмпирический (внутренний, ab initio) и смешанный.
Содержание
Эмпирический метод
Эмпирический подход наиболее универсальный. В базах данных присутствует огромное количество уже описанных мРНК, белков, гомологичных последовательностей, что создает огромное количество информации для использования в процессе предсказания генов.
Эмпирические средства поиска генов, которые также упоминаются как «средства поиска генов на основе сходства последовательностей», обнаруживают гены путем выравнивания известных последовательностей кДНК и белка по нехарактеризованным последовательностям генома.
Особенно полезно знать белковые последовательности других видов, так как полипептидные последовательности часто являются более консервативными, чем лежащие в основе нуклеотидные последовательности и могут быть легко выровнены. Последовательности аминокислот полезны при определении наличия генных локусов, но не всегда дают информацию о точной структуре гена.
Информация о транскриптах РНК дает очень точную информацию для правильного предсказания структуры генов, но эти данные гораздо менее полны и часто сильно зашумлены. Кроме того, транскрипты известны не для всех генов. Иногда в них могут присутствовать интроны из-за неполного созревания мРНК. Ключевым является точное выравнивание внешних данных: транскрипты должны быть выровнены с учётом сплайсинга сплайсингу (экзон-интронной структуры для генов эукариот), а белковые последовательности должны сравниваться с шестью каркасами трансляции нуклеотидных последовательностей. Также необходимо задать пороговые значения и пропускать слишком или менее консервативные гены.
Неэмпирические методы
Неэмпирический подход заключается в использовании структуры генов в качестве шаблона для обнаружения генов, что также называется ab initio-предсказанием. Этот метод более трудоёмкий, поскольку для него необходимо создавать статистические модели. Генные предсказания ab initio основаны на двух типах информации о последовательности: датчики сигналов и датчики контента (под датчиком здесь понимается некий набор признаков). Датчики сигнала относятся к мотивам коротких последовательностей, таким как места сплайсинга, точки разветвления, полипиримидиновые тракты, стартовые и стоп-кодоны. Обнаружение экзона должно опираться на датчики контента, учитывающие модели использования кодонов.
Генные искатели ab initio не используют сходство последовательностей и вместо этого полагаются на собственные генные измерения, включая датчики сигнала и содержимого.
Первостепенное значение в нем имеет обучающий набор структурно хорошо аннотированных генов, используемых для построения моделей и обучения программного обеспечения. Поскольку каждый геном уникален, эти модели и программное обеспечение должны быть специфичными для каждого генома и, следовательно, должны быть перестроены и переобучены для каждого нового вида. Это, однако, также является большим преимуществом этого подхода, так как он способен предсказывать быстро развивающиеся и видоспецифичные гены.
У прокариот гены содержат характерные и хорошо изученные консенсусные элементы -35 и -10 (Прибнов-бокс), которые легко обнаружить, а также сайты связывания транскрипционных факторов. Кроме того, белок-кодирующие гены состоит из одной непрерывной рамки считывания длиной от сотен до нескольких тысяч пар оснований, заканчивающихся стоп-кодоном. В случайных последовательностях стоп-кодоны встречаются гораздо чаще (3 из 64 кодонов — стоп-кодоны, то есть в среднем 1 стоп-кодон на 20—25 кодонов, или 60—75 нуклеотидов), поэтому наличие длинных рамок считывания — уже признак гена. Прочие статистические параметры белок-кодирующей ДНК также легко заметны на последовательностях такой длины. Как следствие, системы предсказания прокариотических генов действуют весьма прямолинейно и обладают высокой точностью.
У эукариот из-за сплайсинга белок-кодирующие последовательности ДНК (экзоны) прерываются некодирующими участками (интронами). Сайты сплайсинга — ещё один сигнал для распознавания генов. Типичный белок-кодирущий ген человека может быть разделён на десяток экзонов, длина каждого из которых обычно составляет 100—200 нуклеотидов. На таких коротких участках гораздо сложнее заметить отличия белок-кодирующей ДНК от случайной.
Программы для поиска генов как у про-, так и у эукариот обычно используют скрытые марковские модели (НММ) и машинное обучение, чтобы объединить информацию от различных сигналов и выявленных закономерностей. GLIMMER — широко используемая и высокоточная система поиска генов в прокариотах, GeneMark — ещё одна популярная система. В сравнении с прокариотическими, неэмперический поиск генов эукариот достиг более скромных результатов. Лучшие программы для эукариот — GENSCAN и geneid. SNAP, как и Genscan, основана на НММ и является попыткой создать универсальный искатель генов, который может работать на геноме, в котором ему не была дана обучающая выборка. В других программах, как например, mSplicer, CONTRAST, или mGene применяется машинное обучение и метод опорных векторов. Они строят различающую модель с применением методов НММ, SVM или марсковских случайных полей (от англ. Conditional random field, CRF) для составления функции вероятности наличия гена.
Другие сигналы
Для предсказания генов используются статистики k-меров, GC-состав, равномерность, энтропия участков ДНК, длина рамок считывания, наборы сайтов связывания рибосом, а также промоторных, экзонно-интронных сайтов и сайтов сплайсинга, фрактальная размерность, Фурье-преобразование закодированной цифрами ДНК и параметры Z-кривой.
Качество предсказаний можно улучшить, применяя не только непосредственно детектируемые сигналы. Например, вторичная структура РНК может помочь с поиском сайтов сплайсинга и других регуляторных мотивов.
Нейронные сети
Пример такой сети — нейронная сеть, определяющая положения сайтов сплайсинга в заданной последовательности ДНК. В этой сети применяется метод скользящего окна, при котором из общей последовательности извлекаются пересекающиеся подпоследовательности (окна) с некоторым шагом. Полученный от каждого окна сигнал сглаживается и фильтруется, после чего для каждого нуклеотида определяется вероятность того, что он входит в сайт сплайсинга. Больший размер окна позволяет повысить точность предсказания, но увеличивает время вычислений. В сеть не было заложено никаких априорных знаний, но в результате обучения на сайтах 16965 генов специфичность и чувствительность распознавания превысили 80 %.
Совмещённый подход
Совмещенный подход является наиболее широко используемым, так как он сочетает лучшее из эмпирического и неэмпирического методов, дополняя результаты ab initio внешней информацией. Программы MAKER и MAKER-P могут быть применены для аннотирования генов во вновь собранных геномах, обновления или объединения устаревших аннотаций в свете новых данных. MAKER и MAKER-P могут быстро аннотировать геномы любого размера и масштабировать в соответствии с доступными вычислительными ресурсами.
MAKER и MAKER-P комментируют и маскируют повторяющиеся элементы в геноме и сопоставляют данные о белках и РНК со сборкой с учетом сплайсинга для точной идентификации сайтов сплайсинга. Они также запускают несколько предсказателей генов ab initio, сравнивают все предсказанные генные модели с данными о выравнивании РНК и белков, а затем пересматривают модели генов ab initio в свете этих данных. Модели генов с наилучшей поддержкой выбираются с использованием показателя качества, называемого расстояние редактирования аннотации (англ. annotation edition distance, AED).
MAKER и MAKER-P являются высокопараллельными приложениями с поддержкой интерфейса передачи сообщений (англ. message раss interface, MPI); это позволяет им эффективно использовать несколько процессоров и аннотировать крупные геномы млекопитающих и растений буквально за несколько часов.
MAKER был разработан как простой в использовании конвейер аннотаций для геномов модельных организмов. Главная цель MAKER состояла в том, чтобы дать возможность небольшим независимым исследовательским группам без обширного опыта или ресурсов в области биоинформатики комментировать геномы.
MAKER 2 является обратно совместимым расширением, улучшил возможности генного поиска; предлагая динамические средства для поиска генов и предоставляя новые средства для контроля качества с использованием AED, а также средства для обновления устаревших аннотаций в свете новых данных о транскриптах и белках.
MAKER-P предоставляет средства для аннотирования сложных геномов растений, а также для автоматического пересмотра, контроля качества и управления существующими аннотациями генома. MAKER-P также предоставляет средства для аннотации генов некодирующих РНК и аннотации псевдогенов. MAKER-P значительно быстрее, чем другие конвейеры аннотирования генома, включая оригинальный MAKER2, что позволяет масштабировать его даже до самых крупных геномов растений.
Предсказание и компьютерный анализ экзон-интронной структуры генов
Обычно система предсказания экзон-интронной структуры базируется на следующих соображениях: во-первых, в подавляющем большинстве случаев интроны начинаются и заканчиваются консервативными динуклеотидами: GТ — в начале интрона и АG — в его конце. Во-вторых, в областях, прилегающих к экзон-интронным границам, есть определенное предпочтение нуклеотидов в других позициях, что позволяет строить разного рода профили для распознавания границ. Однако построенные таким образом распознающие правила все еще достаточно слабы. В-третьих, если нас интересует только кодирующая часть гена, то для более чёткого выбора сайтов сплайсинга можно использовать соображение, что на том, что получится после вырезания интронов, не должно быть стоп-кодонов. Но и это не позволяет надежно определять структуру генов. Можно применить статистику кодонов и тем самым значительно улучшить качество предсказания до 70 %. В настоящее время наиболее популярная техника решения задачи поиска белоккодирующих областей основана на использовании скрытых Марковских цепей, учитывающих все перечисленные соображения.
Тем не менее, применение статистических методов предсказания структуры генов при анализе больших геномных фрагментов имеет несколько трудно преодолимых недостатков. Во-первых, нет возможности локализовать границы генов и предсказания часто объединяют несколько генов, закодированных в последовательности, в один очень большой ген, или, напротив, расщепляют гены на два и более. Во-вторых, применение этих методов затруднительно при наличии ошибок в геномной последовательности. Особенно они чувствительны к сдвигу рамки. Наконец, в-третьих, эти методы позволяют предсказывать только одну изоформу, игнорируя альтернативный сплайсинг.
Сравнительная геномика
Благодаря секвенированию большого числа геномов различных организмов, стал возможен поиск генов путём сравнительной геномики. Этот подход основан на том, что гены и регуляторные элементы мутируют медленней, чем прочие элементы генома, поскольку находятся под большим давлением естественного отбора. Это позволяет детектировать гены как консервативные последовательности, сравнивая геномы близкородственных видов. Этот подход впервые был применён на человеческом и мышином геномах и реализован в программах SLAM, SGP, TWINSCAN/N-SCAN и CONTRAST.
Множественные информанты
Программа TWINSCAN для поиска ортологичных генов учитывает только синтению человеческого и мышиного геномов. Такие программы, как N-SCAN и CONTRAST, позволяют совмещать данные из множества организмов. Использование множества источников данных приводит к значительному улучшению точности.
Программа CONTRAST состоит из двух частей. Первая — классификатор, опознающий сайты сплайсинга, старт- и стоп-кодоны. Вторая часть строит окончательную модель при помощи машинного обучения, принимая на вход данные от первого классификатора и множественных выравниваний с другими геномами. Разделение задачи надвое позволяет снизить объём обучающей выборки и размер окна. Использование уже готового классификатора значительно сокращает время работы программы.
Предсказание псевдогенов
Поиск псевдогенов — основывается на существующих ab initio методах и методах сравнительной геномики с добавлением специальных фильтров.
Пример такого фильтра — детектор потери функции, который ищет нонсенс мутации и сдвиги рамки считывания, нарушающие экспрессию функциональной последовательности ДНК.
Также применяется фильтрация ДНК по разнице в статистических параметрах между генами и псевдогенами, как например меньшее число CpG-островков в псевдогенах. Некоторые искатели генов детектируют такие сигналы, как отсутствие интронов и поли(А)-хвостов.
Для поиска псевдогенов в прокариотах применяется программа Psi-Fi (Ψ-Φ).
Метагеномное предсказание генов
Метагеномные программы делятся на те, что используют принципы ab initio (программа GLIMMER-MG) или сравнительную геномику (программа MEGAN5).
GLIMMER-MG — расширение GLIMMER, полагающееся в основном на подходе ab initio и использующее обучающую выборку из родственных организмов. Стратегия предсказания улучшена за счёт кластеризации генных данных по видам перед предсказанием. Кластеризация основана на техниках метагеномной филогенетической классификации. Примеры программ для кластеризации — Phym с интерполированными марковскими моделями и PhymmBL, пользующийся BLAST.
В основе MEGAN5 лежат методы сравнительной геномики. В этой программе применяется локальное выравнивание против базы известных последовательностей, но также и реализована классификация с использованием дополнительной информации о функции генов.