Продолжая использовать сайт, вы даете свое согласие на работу с этими файлами.
Секвенирование ДНК одиночных клеток
Секвени́рование ДНК одино́чных кле́ток (англ. Single-cell DNA sequencing) — подход, позволяющий получить данные о последовательности ДНК отдельной клетки с помощью секвенирования и, следовательно, выявлять различия между отдельными клетками одноклеточных организмов, органов, тканей и клеточных субпопуляций многоклеточных организмов. Подход позволяет анализировать функциональные особенности клетки в контексте микроокружения. Секвенирование генома единичной клетки включает несколько шагов: выделение одной клетки, полногеномная амплификация, создание библиотек и секвенирование ДНК с использованием методов секвенирования нового поколения.
С появлением разнообразных методов секвенирования возникла возможность устанавливать последовательность геномной ДНК. Однако большинство данных на текущий момент получены при секвенировании образцов геномной ДНК, выделенных из популяций микроорганизмов или клеточных субпопуляций многоклеточных организмов. Однако известно, что разнообразие внутри обеих групп может быть существенным, так как сами клетки вносят разный вклад в существование популяции или организма.
Секвенирование генома единичной клетки позволяет перевести изучение генома на клеточный уровень. Сегодня это помогает решать такие задачи, как de novo секвенирование некультивируемых микроорганизмов, изучение генетического мозаицизма в нормальных и патологических случаях, выявление и изучение вклада клеточных субпопуляций опухолей в развитие рака и возникновение устойчивости к лечению.
Содержание
Технологические задачи
Перед секвенированием ДНК одиночных клеток стоят задачи физического выделения отдельных клеток, выбора метода амплификации с наименьшей вероятностью внесения ошибок для получения достаточного количества материала и выбора способа секвенирования.
Изолирование отдельных клеток
Первым шагом в изолировании клеток является создание суспензии жизнеспособных клеток, не связанных друг с другом. Целью изолирования может быть как случайный выбор клеток для создания репрезентативной выборочной совокупности при анализе состава субпопуляций, так и целенаправленный поиск определенных клеток. При исследовании твердых тканей необходима предварительная механическая или химическая диссоциация образца, при этом условия диссоциации должны одинаково действовать на все субпопуляции клеток тканей. Это необходимо для создания несмещенной относительно исходного набора клеток выборки, где сохраняется изначальная представленность клеток, что может быть важно для анализа состава субпопуляций. Стоит учитывать, что условия диссоциации нормальных и нездоровых тканей могут различаться, поэтому на данном этапе важно подобрать соответствующие условия. Работа с цельными образцами тканей также возможна, например, с помощью лазерной захватывающей микродиссекции.
После получения суспензии можно приступать к изолированию клеток методами серийного разведения, микропипетирования, разведения в микроячейках, с использованием оптического пинцета. Метод проточной флуоресцентной цитометрии может использоваться для отделения клеток с определенными флуоресцентными свойствами, которые могут быть как естественными, так и введены экспериментатором. Большое развитие в последнее время получили автоматизированные методы микроманипуляции, в том числе изолирование клеток на чипах с использованием технологий микрофлюидики; взятие нанобиопсий уже позволяет исследовать ДНК отдельных органелл. Изолированные клетки впоследствии подвергаются лизису.
Полногеномная амплификация
Следующий шаг — полногеномная амплификация (англ. whole genome amplification, WGA), — служит для наработки такого количества ДНК, которого достаточно для детекции сигнала и его выделения из шума в дальнейшем при секвенировании. При этом желательно минимизировать внесение таких артефактов, как предпочтительная амплификация простых последовательностей, введение случайных мутаций и формирование химерных последовательностей. За последнее время появился набор возможностей для решения этой задачи. Использование ПЦР не оправдало себя ввиду, например, повышенной частоты введения ошибок термостабильными полимеразами. Поэтому наибольшего распространения добились изотермические и гибридные методы, такие как метод амплификации со множественным замещением цепи (англ. Multiple displacement amplification, MDA) и амплификации со множественным выпрямлением и выпетливанием (англ. Multiple Annealing and Looping Based Amplification Cycles, MALBAC).
MDA
MDA позволяет быстро амплифицировать ДНК, не задействуя ПЦР. Метод основан на использовании фаговой полимеразы phi29, которая характеризуется повышенной процессивностью (может синтезировать участки длиной свыше 10 килобаз без диссоциации) и низкой частотой ошибок (1 на 106−107пар оснований). Реакция происходит следующим образом: гексамерные праймеры отжигаются на матрице, элонгируются посредством полимеразы; когда фермент встречает другой праймер (который также элонгируется), то он вытесняет (замещает) его и продолжает свой путь по матрице. Замещенный новосинтезированный участок служит местом посадки новых праймеров и становится матрицей. Таким образом формируется ветвистое дерево, где синтез происходит на каждой ветви. В конце процедуры полимераза ингибируется, добавляется нуклеаза S1 для отщепления ветвей в местах ветвления и ДНК-полимераза I для достраивания образующихся одноцепочечных участков.
Метод имеет ряд проблем, таких как потеря аллелей, предпочтительная амплификация и взаимодействия между праймерами. Первая проблема возникает вследствие случайной амплификации только одного из аллелей в гетерозиготах, в результате чего гетерозиготы неверно определяются как гомозиготы. Из-за высокой частоты проявления этого эффекта (0 — 60 %) уменьшается точность генотипирования. Вторая проблема заключается в сверхамплификации одного аллеля по сравнению с другими. Взаимодействия между гексамерными праймерами происходят вследствие случайного характера последовательностей; их можно значительно уменьшить, введя ограничения при синтезе этих праймеров.
MALBAC
MALBAC — гибридный линейный метод полногеномной амплификации. Основа метода — специальные праймеры: они имеют длину 35 нуклеотидов, 27 из которых одинаковы во всех праймерах (GTG AGT GAT GGT TGA GGT AGT GTG GAG), а 8 оставшихся нуклеотидов варьируются. Весь процесс амплификации описывается следующим образом:
- Плавление (94 °С) двухцепочечной ДНК с образованием одноцепочечных фрагментов.
- Охлаждение (0 °С), добавление праймеров и полимеразы.
- Отжиг праймеров в случайных местах на матрице. ДНК-полимераза Bst удлиняет праймеры с образованием полуампликона при 64 °С. Все встречные праймеры смещаются с матрицы.
- Плавление (94 °С), отделение полуампликона от матрицы.
- Охлаждение (0 °С), добавление праймеров и полимеразы. Праймеры эффективно связываются и с матрицей, и с полуампликоном.
- ДНК-полимераза Bst удлиняет праймеры при 64 °С. На исходной матрице синтезируются полуампликоны, на полуампликонах, полученных ранее, синтезируются полные ампликоны.
- Плавление (94 °С).
- Образование петель (58 °С): у полных ампликонов 3' и 5' концы комплементарны друг другу и образуют петлю, не допуская использования полного ампликона в качестве матрицы.
- Повторение шагов 5—8 пять раз.
- ПЦР с использованием 27 общих нуклеотидов в качестве праймеров для амплификации только полных ампликонов.
Преимуществом метода является уменьшение шума, связанного с экспоненциальным характером ПЦР амплификации, благодаря введению предварительной квази-линейной амплификации. Это позволило увеличить покрытие генома (доля генома, покрытая хотя бы одним ридом), уменьшить вероятность потери аллелей и однонуклеотидных полиморфизмов (SNPs). Помимо этого, на вход требуется очень небольшое количество исходной ДНК, однако любое загрязнение образцов способно значительно повлиять на результаты секвенирования.
Недостатком является то, что для избавления от ложно-положительных результатов необходимо сравнивать результаты секвенирования 2—3 клеток как из той же, так и из иной клеточных линий. При этом может теряться часть полиморфизмов, так как клетки, принадлежащие одной клеточной линии, все же имеют некоторые различия в геноме. Кроме того, используемая ДНК-полимераза bst имеет высокую частоту ошибок (1 на 105 оснований).
Сравнение методов полногеномной амплификации
В последнее время было проведено несколько исследований, посвященных сравнению этих методов. Результатом одного из исследований стал вывод о том, что MDA позволяет получить большее покрытие, чем MALBAC (84 % и 52 % соответственно), что позволяет более точно определять однонуклеотидные полиморфизмы. Однако MALBAC обеспечивает более равномерное покрытие и поэтому дает возможность более точно выявлять вариации числа копий (CNVs). Интересно, что при секвенировании некоторых клеток уровень детекции вариаций числа копий методом MDA был сопоставим с MALBAC. Другие авторы также подтверждают разницу в покрытии между MDA и MALBAC (84 % и 72 %) и сравнительно более высокую равномерность покрытия MALBAC (коэффициент вариации 0,10 против 0,21 у MDA). Показано, что MDA дает меньше ложно-положительных результатов, но число ложно-отрицательных результатов меняется от эксперимента к эксперименту. MALBAC дает меньшую частоту потери аллелей (21 %), однако и покрытие его меньше, чем у MDA. В целом не ясно, какой приводит к меньшему количеству ложно-отрицательных результатов, так как MDA покрывает большую часть генома, но при этом теряет больше аллелей из-за предпочтительной амплификации только одного из аллелей в гетерозиготе.
Таким образом, MDA и MALBAC имеют набор преимуществ и недостатков, и выбор должен зависеть от поставленной задачи.
Создание библиотеки
После амплификации можно приступать к приготовлению библиотек с помощью коммерческих наборов. Здесь возможно несколько вариантов: выбор определенного локуса, выбор экзома или всего генома для дальнейшего секвенирования. Каждый из этих вариантов предполагает определенные значения покрытия, склонности к ошибкам и стоимости. Выбор небольших участков позволяет сфокусироваться на областях, вносящих наибольший биологический вклад в работу изучаемой системы. При этом уменьшается цена исследования и вероятность внесения ошибок при подготовке проб. Использование референсного генома позволяет уменьшить ложно-положительные результаты, хотя и ограничивает определяемые однонуклеотидные полиморфизмы теми, что присутствуют в референсном геноме. Секвенирование экзома позволяет выделить уникальные особенности клеток, однако с ростом длины секвенируемого участка растет вероятность внесения ошибок в ходе амплификации. Использование всего генома позволяет выявить некодирующие и структурные участки, однако стоимость исследования резко возрастает, что затрудняет полногеномное секвенирование многих клеток.
ДНК из созданных тем или иным способом библиотек используется в секвенировании одним из существующих методов.
Обработка данных
Распространенные ошибки
Большинство артефактов секвенирования возникают при подготовке образцов: изоляция клеток, загрязнение геномной ДНК, амплификация и создание библиотек, так как все эти шаги привносят дополнительные ошибки, приводят к потере покрытия, уменьшению однородности покрытия, смещениям в выборке при предпочтительном отборе определенных групп клеток и амплификации определенных последовательностей ДНК, являются причиной потери аллелей в гетерозиготных позициях. Следует также принимать во внимание клеточные линии, на которых проводится оптимизация всех стадий секвенирования: не все клетки диплоидны, есть и гаплоидные, и анеуплоидные популяции, и их плоидность может значительно влиять на эксперимент. Препятствием на пути сравнения различных результатов в этой области подчас является отсутствие информации об общем количестве оцененных клеток и мере оценки качества секвенирования в конкретных работах.
Однонуклеотидные полиморфизмы
Однонуклеотидные полиморфизмы, согласно проекту 1000 геномов, вносят наибольшее разнообразие в геном человека: на карте гаплотипа подтверждено 38 млн однонуклеотидных полиморфизмов, 1,4 млн вставок/делеций и более 14 тыс крупных делеций. Также предполагается, что многие комплексные заболевания, такие как болезнь Альцгеймера, различные виды рака, аутоиммунные заболевания могут быть связаны именно с наличием полиморфизмов.
Сегодня поиск полиморфизмов в данных секвенирования отдельных клеток опирается на те же алгоритмы, что и анализ результатов обычного секвенирования: GATK, SNPdetector, SOAPsnp, VarScan. Однако есть отличия между секвенированием популяции клеток и секвенированием отдельных клеток: в последнем случае меньше покрытие генома и выше уровень ложно-положительных результатов.
Вариация числа копий участков ДНК
Вариации числа копий фрагментов ДНК приводят к ненормальному числу копий этих фрагментов; разнообразие этого типа генетического полиморфизма также влияет на здоровье людей. Некоторые исследования подчеркивают их связь с развитием опухолей, аутоиммунных заболеваний, аутизма и др. Здесь, как и при поиске однонуклеотидных полиморфизмов, используются в основном те же алгоритмы, что и для обычного секвенирования: CNV-seq, PenCNV, CNAseg, ReadDepth, и cn.MOPS. Для того, чтобы учитывать вносимый шум, необходимо произвести анализ влияния методов амплификации на появление и исчезновение вариаций числа копий ДНК.
Сравнительный анализ клеток
Одной из стратегий кластеризации клеток исходя из геномных данных является введение функции расстояний, которая обеспечивает количественную оценку различий между парами образцов. В данном случае Мера Жаккара считается наиболее подходящей ввиду бинарной природы генетических данных (см. ниже). Альтернативой основанным на функции расстояния методам является основанная на модели кластеризация, предполагающая вероятностный подход: вместо «жёстких» расстояний вводятся «мягкие» вероятности происхождения клеток от различных клонов.
Представив данные секвенирования единичных клеток в качестве матрицы, где по вертикали отмечены интересующие нас мутации, а по горизонтали — клетки, заполняем ее 0 и 1 в зависимости от присутствия конкретной мутации в конкретной клетке. Если исследуется опухоль, то для нее с течением времени характерны экспансия одних клонов и исчезновение других. При этом мы не знаем, сколько каких клонов присутствует, и предполагаем, что часть данных потеряна в ходе подготовки проб.
Параметры модели, такие как вероятность клетки произойти от определенного клона, а также уровень ложно-отрицательных результатов, могут быть оценены посредством алгоритма максимизации ожидания. Тогда проблема определения числа клонов сводится к выбору статистической модели, которая наилучшим образом описывает данные секвенирования; оценка проводится с помощью информационных критериев Байеса и Акаике. Существует и гибридный подход, позволяющий осуществлять первоначальную кластеризацию с помощью функции расстояния, что увеличивает скорость основанной на модели кластеризации, требующей больших вычислительных мощностей. Основываясь на результатах кластеризации, строится профиль консенсусных клональных мутаций. По нему с помощью различных методов построения деревьев можно выявлять взаимоотношения между разными клонами. Так, например, можно продемонстрировать эволюционную историю опухоли.
Достижения
Клональная эволюция клеток рака груди
Анализ паттернов мутаций (вставки, делеции, однонуклеотидные замены, вариации числа копий генов) различных популяций клеток рака груди позволил выявить как набор мутаций, характерных для каждой из популяций (клональные мутации), так и тех, что встречались в нескольких клетках (субклональные мутации). Данные были получены с помощью секвенирования экзомов отдельных клеток, проверены методом глубокого секвенирования. В исследовании использовались клетки анеуплоидных популяций ERBC (ER+/PR+/Her2-) и TNBC (ER-/PR-/Her2-), отличающихся по наличию определенных рецепторов (ER/PR/Her2) на поверхности мембраны, а также нормальные диплоидные клетки. Результатом стало выявление значительно большего количества клональных мутаций в популяции TNBC по сравнению с ERBC и нормальными клетками. В популяции клеток TNBC показано существование трех субпопуляций раковых клеток, найденных по паттернам субклональных мутаций. Получены доказательства того, что TNBC обладает большей частотой возникновения мутаций, и их накопление может происходить не только из-за ошибок при ускоренной пролиферации.
Пока неясно, как именно возникает устойчивость опухолей к химиотерапии. Либо в популяции уже есть редко встречающиеся устойчивые клетки, либо ответ возникает спонтанно после действия лекарств. Кроме того, не всегда ясно, за счет чего накапливаются мутации: либо это ускоренная скорость мутаций, как в случае TNBC, либо это накопление мутаций с обычной скоростью, но в большом количестве вследствие ускорения пролиферации.
Перспективы
На данный момент основную проблему представляет наличие шага амплификации геномной ДНК, ответственного за внесение наибольшего числа артефактов. Требования к количеству ДНК при приготовлении библиотек все уменьшаются, и уже было продемонстрировано прямое создание библиотек из выделенной ДНК. Более того, была показана возможность вовсе обходиться без библиотек, подавая на секвенирование выделенную из клетки ДНК. Существует также возможность выявления эпигенетической информации, такой как поиск паттернов метилирования и захват конформационного состояния хромосом. Сегодня ученые обычно оперируют десятками-сотнями клеток, но развитие автоматических платформ для захвата клеток, амплификации ДНК и приготовления библиотек существенно увеличит масштабы и доступность анализа отдельных клеток, позволяя проводить более крупные эксперименты в короткий срок.
Применение метода секвенирования ДНК отдельных клеток вместе с эпигеномными и транскриптомными исследованиями позволит точно классифицировать клетки и дополнить существующий взгляд на клеточные популяции. Также станет возможным установление взаимоотношений между последовательностью генома, эпигенетическим статусом и экспрессией генов, определение функциональных возможностей клеток.