Продолжая использовать сайт, вы даете свое согласие на работу с этими файлами.
Сборка генома
Сборка генома — процесс объединения большого количества коротких фрагментов ДНК (ридов) в одну или несколько длинных последовательностей (контигов и скаффолдов) в целях восстановления последовательностей ДНК хромосом, из которых возникли эти фрагменты в процессе секвенирования.
Сборка генома является очень сложной вычислительной задачей, в частности, осложнённой тем, что геномы часто содержат большое количество одинаковых повторяющихся последовательностей (так называемые геномные повторы). Эти повторы могут быть длиной в несколько тысяч нуклеотидов, а также встречаться в тысяче различных мест в геноме. Особенно богаты повторами большие геномы растений и животных, в том числе геном человека.
Содержание
Алгоритмические подходы
Существует два подхода для сборки геномов — основанный на перекрытии overlap-layout-consensus (применяется для длинных фрагментов), а также основанный на графах де Брёйна (применяется для коротких фрагментов) .
Overlap-Layout-Consensus
При секвенировании методом дробовика все ДНК организма сначала разрезают на миллионы маленьких фрагментов до 1000 нуклеотидов в длину. Затем алгоритмы сборки генома рассматривают полученные фрагменты одновременно, находя их перекрытия (overlap), объединяя их по перекрытиям (layout) и исправляя ошибки в объединённой строке (consensus). Данные шаги могут повторятся несколько раз в процессе сборки.
Данный подход был наиболее распространён для сборки геномов до появления секвенирования следующего поколения.
Графы де Брёйна
С развитием технологий секвенирования следующего поколения получение фрагментов стало на порядок дешевле, но размер фрагментов стал меньше (до 150 нуклеотидов), а количество ошибок при чтении фрагментов увеличилось (до 3 %). При сборке таких данных получили распространение методы, основанные на графах де Брёйна.
Доступные сборщики
Список популярных геномных сборщиков:
Название | Поддерживаемые технологии | Авторы | Представлен | Обновлён | Лицензия* | Домашняя страница |
---|---|---|---|---|---|---|
ABySS | Solexa, SOLiD | Simpson, J. et al. | 2008 | 2011 | NC-A | ссылка |
ALLPATHS-LG | Solexa, SOLiD | Gnerre, S. et al. | 2011 | 2011 | OS | ссылка |
CLC Genomics Workbench | Sanger, 454, Solexa, SOLiD | CLC bio | 2008 | 2010 | C | ссылка |
Euler | Sanger, 454 (,Solexa ?) | Pevzner, P. et al. | 2001 | 2006 | (C / NC-A?) | ссылка |
Euler-sr | 454, Solexa | Chaisson, MJ. et al. | 2008 | 2008 | NC-A | ссылка |
IDBA | Sanger,454,Solexa | Yu Peng, Henry C. M. Leung, Siu-Ming Yiu, Francis Y. L. Chin | 2010 | 2010 | (C / NC-A?) | ссылка |
MIRA | Sanger, 454, Solexa | Chevreux, B. | 1998 | 2011 | OS | ссылка |
Newbler | 454, Sanger | 454/Roche | 2009 | 2009 | C | ссылка |
SOPRA | Illumina, SOLiD, Sanger, 454 | Dayarian, A. et al. | 2010 | 2011 | OS | ссылка |
SOAPdenovo | Solexa | Li, R. et al. | 2009 | 2009 | OS | ссылка |
SPAdes | Illumina, Solexa | Bankevich, A et al. | 2012 | 2012 | OS | ссылка |
Velvet | Sanger, 454, Solexa, SOLiD | Zerbino, D. et al. | 2007 | 2009 | OS | ссылка |
*Licences: OS = Open Source; C = Коммерческая; C / NC-A = Коммерческая, но бесплатна для использования в некоммерческих и научных целях; Скобки = неизвестно, но скорее всего C / NC-A |