Мы используем файлы cookie.
Продолжая использовать сайт, вы даете свое согласие на работу с этими файлами.

ChIP-seq

Другие языки:

ChIP-seq

Подписчиков: 0, рейтинг: 0

ChIP-seq — метод анализа ДНК-белковых взаимодействий, основанный на иммунопреципитации хроматина (ChIP) и высокоэффективном секвенировании ДНК. Метод был разработан для изучения модификаций гистонов по всему геному, а также поиска мест связывания транскрипционных факторов. Ранее самым популярным методом для установления ДНК-белковых взаимодействий был ChIP-on-chip, сочетающий иммунопреципитацию хроматина с гибридизацией на ДНК-микрочипах.

Методика

Диаграмма, иллюстрирующая ChIP-seq

Иммунопреципитация хроматина (ChIP)

Иммунопреципитация хроматина — метод, используемый для специфического накопления коротких последовательностей ДНК, связанных с исследуемым белком в живых клетках. Типичная методика включает в себя следующие стадии:

образование обратимых сшивок между ДНК и взаимодействующими с ней белками (обычно с помощью обработки формальдегидом)
выделение ДНК и расщепление на фрагменты ультразвуком или эндонуклеазами
осаждение специфическими к исследуемому белку антителами, пришитыми к белкам A/G на поверхности магнитных бусин
разрушение сшивок между белком и ДНК, очистка ДНК

В результате выделится вся ДНК, но образец будет обогащён фрагментами, с которыми был связан исследуемый белок.

Секвенирование

Данная стадия включает в себя определение первичной последовательности полученных после иммунопреципитации фрагментов ДНК любым доступным способом. В отличие от ChIP-on-Chip, в ChIP-seq для определения последовательности ДНК используется секвенирование нового поколения. В ChIP-seq чаще используется одноконцевое секвенирование, однако использование парноконцевого секвенирования повышает точность картирования (что особенно важно для картирования повторов). В результате получается набор коротких перекрывающихся последовательностей (чтений, или ридов). Обычно исходные фрагменты ДНК имеют длину 150—500 п .н., а полученные риды чаще всего имеют длину 50 п. н.

Биоинформатический анализ

Биоинформатический анализ включает в себя следующие стадии:

Фильтрация чтений с низким качеством

Для фильтрации полученных ридов можно использовать программные пакеты FastQС и FastX ToolKit. Определение качества чтений базируется на Phred quality score — весе, который присваивается каждому нуклеотиду при его прочтении. Для оценки и улучшения качества ридов могут быть использованы такие программные пакеты, как Gencore, FQStat, Picard и Cutadapt. Gencore удаляет повторяющиеся риды, оставляя один консенсусный. Благодаря этому на выходе получаются более чистые данные чем в случае простого удаления дубликатов. Picard — набор инструментов позволяющий работать с альтернативными форматами: SAM / BAM / CRAM и VCF. FQStat — автономный, независимый от платформы программный пакет инструментом, который оценивает качество файлов FASTQ с помощью параллельного программирования. Помимо этого Illumina предоставлят внутреннюю услугу по проверке качества ридов Illumina chastity filter.

Также для улучшения качества чтений может быть полезен «тримминг» — обрезание концов чтений с низким качеством, получающихся из-за рассогласованности (особенность секвенирования нового поколения). Тримминг производится с помощью программы Trimmomatic.

Картирование чтений на геном

Картирование представляет собой определение того, какой именно участок и какой хромосомы был прочитан данным конкретным чтением. Для картирования чтений на геном могут использоваться такие программные пакеты, как BWA, Bowtie, Bowtie 2 и GSNAP.

Фильтрация артефактов и чтений, откартированных в несколько мест

Чтения, получаемые в результате массивного параллельного секвенирования, обычно имеют небольшую длину (100—200 нуклеотидов), тогда как в средней эукариотической хромосоме порядка 100 миллионов нуклеотидов. Картирование чтений на геном не всегда представляет собой тривиальную задачу из-за наличия в геноме эукариот большого числа повторов (например, LINE и SINE — повторы, составляющие соответственно 17 % и 11 % от последовательности ДНК человека), и, таким образом, чтения повторов могут картироваться сразу в нескольких местах. Обычно для анализа (например, транскрипционных факторов) достаточно уникально откартированных ридов, однако в некоторых случаях в анализ включают и риды, картированные на несколько участков. В качестве альтернативы для поправки на потерянный в плохо картируемых областях сигнал может использоваться картируемость — показатель, зависящий от различных параметров эксперимента и анализа, в том числе от длины ридов и программ, используемых для обработки данных.

Для фильтрации может быть использован программный пакет SAMTools.

Определение качества картирования

После картирования становится возможным определить участки связывания исследуемого белка в геноме по количеству картированных на данный участок чтений (если много — белок там был).

Набор полученных в результате иммунопреципитации чтений может оказаться неудачным для дальнейшего анализа из-за недостаточной глубины секвенирования, неудачного выбора размера фрагментов, на которые расщеплялась ДНК при иммунопреципитации, или же недостаточной представленности связанных с исследуемым белком фрагментов в полученной после иммунопреципитации смеси (плохие антитела и т. п.).

Для определения всего вышеперечисленного используется программный пакет CHANCE.

Выявление сайтов связывания

После картирования ридов на геном для выявления сайтов (участков) связывания вначале оценивается уровень покрытия. Далее выявляются пики (участки с большим покрытием, где, вероятно, был связан исследуемый белок), отделяется шум и определяются границы пиков. При этом важно соблюдение баланса между чувствительностью и специфичностью.

Некоторые из программных пакетов, которые можно использовать для решения этой задачи — SPP, PeakSeq, MACS, MACS 2, UGENE. Результатом работы этих программ является список участков, отранжированный либо по величине абсолютного сигнала (то есть числу ридов), либо по значимости обогащения (например, по p-value или FDR). Выбор подходящего метода зависит от изучаемого вида и белка и условий эксперимента. Разные программы используют разные предположения и допущения для вычисления p-value и FDR. Например, SPP и исходная версия MACS используют только данные эксперимента ChIP-Seq и контроля (при его наличии), в то время как MOSAiCS учитывает показатель картируемости и GC-состав. Поэтому сравнивать результаты работы разных алгоритмов вызова пиков достаточно затруднительно. Многие работы по сопоставлению алгоритмов используют валидацию числа найденных пиков с помощью данных экспериментов ChIP-on-Chip, qPCR и т. д.. Ситуация также осложняется плохой аннотированностью истинных сайтов связывания, поэтому при поиске пиков для белка с неизвестным сайтом связывания необходимо использовать отрицательные контроли.

Аннотация сайтов связывания

Целью аннотации является установление связи между сайтом связывания и функциональным участком ДНК, на который попал сайт связывания. Таким функциональным участком может быть промотор, участок начала транскрипции, межгенный участок и т. п..

Пересечение предсказанных участков связывания с функциональными элементами ДНК может быть визуально проанализировано в одном из геномных браузеров; можно также получить текстовый файл с аннотацией с помощью Diffbind, CEAS или ChIPpeakAnno.

Выявление мотивов

В полученных пиках (длина порядка сотен нуклеотидов) иногда можно выявить характерные последовательности, по которым происходит связывание белка — мотивы (длина обычно около 20 нуклеотидов). Для поиска мотивов можно использовать алгоритм MEME, Гиббс-семплер, ChIPMunk. Если же для исследуемого белка уже известен мотив, по которому происходит связывание, то его наличие в пиках может служить хорошим индикатором качества ChIP-seq.

Характеристики метода

При дизайне эксперимента ChIP-seq и дальнейшем биоинформатическом анализе необходимо учитывать некоторые факторы и ограничения методики:

Неравномерная фрагментация и контроль

Доступность хроматина при фрагментации не одинакова в разных частях генома: в активно транскрибируемых областях он доступнее, поэтому соответствующие фрагменты ДНК будет преобладать в образце, что может привести к ложно-положительному результату. Плотно упакованные участки, напротив, могут хуже подвергаться фрагментации и, следовательно, будут менее представлены в образце, что может привести к ложно-отрицательному результату.

Из-за неравномерной фрагментации и других факторов важно использовать правильный контроль. Консорциум ENCODE описывает два основных типа контролей. В первом варианте в качестве контроля используется ДНК, выделенная из клеток в тех же условиях, но без преципитации (так называемый контроль входной («input») ДНК). Во втором типе проводится ещё один эксперимент ChIP с использованием антител, которые связывают незначимые внеядерные антигены (так называемый «IgG контроль»). В обоих случаях глубина секвенирования должна быть не меньше глубины эксперимента ChIP-seq.

Количество клеток

У классической методики существует ряд ограничений. Так, обычно для ChIP необходимо значительное количество клеток (около 10 миллионов), что затрудняет применение данного метода на маленьких модельных организмах, а также ограничивает количество экспериментов, которые можно провести с ценным образцом. Для преодоления данного ограничения был разработан ряд методов, основанных на амплификации ДНК после ChIP-seq (например, nano-ChIP-seq). ChIP-seq отдельных клеток (англ. Single-cell ChIP-seq) очень сложен из-за фонового шума, вызванного неспецифическим связыванием антител, и к середине второго десятилетия XXI века была опубликована лишь одна работа, в которой Single-cell ChIP-seq осуществлён успешно. В этом исследовании использовали капельную микрофлюидику, и из-за низкого покрытия потребовалось отсеквенировать тысячи клеток, чтобы выявить клеточную гетерогенность.

Отношение сигнал/шум

Отношение сигнал/шум (S/N) определяется числом и мощностью пиков, полученных для каждого образца, и может быть использовано для оценки уровня шума. Высокое значение S/N не гарантирует правильность определения сайтов связывания, а всего лишь отражает наличие большого количества участков генома, на которые откартировалось много ридов. Для определения этого показателя ENCODE предлагает две метрики:

доля ридов в пиках (fraction of reads in peaks, FRiP) положительно коррелирует с числом и интенсивностью пиков и определяется как FRiP = ¼ N_peak/N_nonred, где N_peak — число ридов, откартированных в районы пиков. К минусам этого показателя относится тот факт, что он зависит от глубины секвенирования и параметров поиска пиков, но в целом он положительно коррелирует с числом найденных пиков;
кросс-корреляционные профили (cross-correlation profiles, CCPs) используют кластеризацию ридов на основании кросс-корреляции Пирсона без предварительного поиска пиков, что отличает этот метод от FRiP.

Глубина секвенирования

Глубина секвенирования (покрытие) — число уникальных ридов, откартированных на данный участок референсного генома. Глубина секвенирования влияет на выявление пиков: их число растёт с увеличением глубины секвенирования, так как с ростом числа ридов большее количество сайтов становится статистически значимым. Поэтому для распознавания всех функциональных сайтов необходимо глубокое секвенирование.

Значение достаточного уровня покрытия зависит от отношения сигнал/шум антитела и может быть определено как глубина секвенирования, при которой отношение числа пиков из случайно взятой подвыборки ридов к числу пиков из полной выборки ридов выходит на плато. Такое насыщение может быть достигнуто не всегда (например, его нет для гистонов), и в таких случаях эта величина задаётся эмпирически.

Сложность библиотеки

Сложность библиотеки (NRF) определяется как отношение числа необогащенных ридов N_nonred к общему числу откартированных ридов N_all. Необогащенные риды определяются как риды, откартированные на один и тот же участок генома T раз и меньше (значение T задаётся в качестве параметра). Обогащённые риды (риды, не вошедшие в N_nonred) не рассматриваются в дальнейшем анализе. Для человека параметр T обычно берут равным 1, так как ожидаемая глубина секвенирования в этом случае обычно намного меньше единицы. Для маленьких геномов глубина секвенирования может быть больше 1, поэтому стоит взять большее значение T. При сравнении показателя NRF для разных образцов, стоит помнить, что он зависит от общего количества откартированных ридов.

Показатель NRF уменьшается с увеличением глубины секвенирования библиотеки. При это в конечном итоге достигается точка, в которой сложность будет максимальна и будет происходить секвенирование одних и тех же фрагментов ДНК, амплифицированных с помощью ПЦР. Низкая сложность библиотеки может возникнуть, например, если в процессе иммунопреципитации выделяется очень небольшое количество ДНК.

Чувствительность

Чувствительность технологии зависит от глубины секвенирования, длины генома и других факторов. Для транскрипционных факторов млекопитающих и энхансер-ассоциированных модификаций хроматина, которые обычно локализованы в специфических узких сайтах и имеют порядка тысячи сайтов связывания, будет достаточно около 20 миллионов чтений. Для белков с бо́льшим числом сайтов связывания (РНК-полимераза III) потребуется до 60 миллионов чтений. В случае транскрипционных факторов червей или мушек необходимо примерно 4 миллиона чтений. Цена секвенирования полученных после иммунопреципитации фрагментов непосредственно коррелирует с глубиной секвенирования. Если требуется отобразить с высокой чувствительностью участки связывания белков, часто встречающиеся в большом геноме, потребуются высокие затраты, так как необходимо будет большое число чтений. Это отличает данный метод от ChIP-on-Chip, в котором чувствительность не связана со стоимостью анализа.

Ещё одно отличие от ChIP-методов, основанных на ДНК-микрочипах, заключается в том, что точность ChIP-seq не ограничивается расстоянием между заданными зондами. Путём интеграции большого количества коротких чтений может быть получена локализация сайтов связывания с высокой точностью. В сравнении с методами ChIP-on-Chip данные ChIP-seq могут быть использованы для локализации фактического сайта связывания белка с точностью до десятков нуклеотидов. Плотность чтений на участках связывания является хорошим индикатором силы связи белок-ДНК, что позволяет легче количественно оценивать и сравнивать сродство белка к разным участкам.

Точность и специфичность

Длина типичного участка связывания белка составляет 6—20 нуклеотидов, а длина полученных фрагментов после ChIP — около 200, что делает определение места связывания не слишком точным. Кроме того, полученные библиотеки часто могут содержать участки ДНК, не связанной с исследуемым белком, что приводит к ошибкам в результатах. Существуют различные модификации метода, направленные на повышение точности (например, ChIP-exo). Качество эксперимента ChIP-seq также прямо зависит от специфичности антител и степени обогащения образца на стадии иммунопреципитации. Главными проблемами могут быть низкая реактивность антитела против нужного белка и/или кросс-реактивность по отношению к другим белкам. Консорциум ENCODE предлагает несколько методик для оценки специфичности антител.

Для осуществления иммунопреципитации также можно пришить к исследуемому белку эпитоп. Такой способ решает обе проблемы, возникающие при иммунопреципитации антителами, однако в этом случае пришиваемый тэг может влиять на исследуемый белок (например, изменять уровень его экспрессии или способность связывания).

Альтернативные методы

ChIP-on-chip

ChIP-on-chip, сочетающий иммунопреципитацию хроматина с гибридизацией на ДНК-микрочипах, ранее был самым популярным методом для установления ДНК-белковых взаимодействий. Chip-seq и ChIP-on-chip — два наиболее широко распространённых подхода в полногеномных исследованиях взаимодействий ДНК — белок in vivo. Однако при более детальном сравнении этих методов удаётся показать значительные преимущества Chip-seq. Сравнение методов Chip-seq и ChIP-on-Chip представлено в таблице:

Показатель	ChIP-seq	ChIP-on-Chip
Количество исходной ДНК	менее 10 нг	4 мкг
Гибкость метода	да: полногеномный анализ любого отсеквенированного организма	есть ограничения: доступность ДНК-микрочипов
Точность определения позиции участка связывания	+/- 50 пн	+/- 500 − 1000 пн
Чувствительность	вариабельная: увеличивая количество чтений, можно увеличить чувствительность	слабая: зависит от качества гибридизации
Кросс-гибридизация (гибридизация одноцепочечной ДНК с зондом, который ей частично комплементарен)	исключена: каждая молекула ДНК секвенируется отдельно	может быть значительной, что сильно снижает точность анализа

DamID

DamID (DNA adenine methyltransferase identification) позволяет картировать сайты ДНК-белковых взаимодействий в клетках эукариот. Для этого в клетках экспрессируется химерный белок, состоящий из интересующего белка и ДНК аденин метилтрансферазы (Dam) E. coli, которая метилирует аденины в последовательности GATC. У большинства эукариот эндогенное метилирование аденина в сайтах GATC не происходит. Когда исследуемый белок, слитый с Dam, связывается с ДНК или другими ДНК-ассоциированными белками, Dam метилирует остатки аденина в ДНК, окружающей сайт связывания, таким образом данный метод позволяет маркировать сайты взаимодействия целевого белка с ДНК и ДНК-ассоциированными белками. Чтобы идентифицировать последовательности, метилированные химерным белком, метилированные фрагменты селективно амплифицируются и гибридизуются на микрочипах.

Селективная амплификация метилированных фрагментов ДНК основана на специальном ПЦР-протоколе. Сначала ДНК, метилированная в сайтах GATC, разрезается между GA^m and TC нуклеотидами рестриктазой DpnI. Расщепление с помощью DpnI приводит к образованию фрагментов ДНК с тупыми концами 5’ TC и 3’ GA^m. После этого к полученным фрагментам лигируются двухцепочечные адапторы. Продукты лигирования затем расщепляются эндонуклеазой рестрикции DpnII. DpnII разрезает ДНК по неметилированным сайтам GATC, благодаря этому впоследствии амплифицируются только фрагменты, фланкированные последовательно метилированными сайтами GATC (то есть сайтами, между которыми не встречаются неметилированные сайты GATC). Затем проводится ПЦР с праймерами, комплементарными к адапторам, и таким образом специфично амплифицируются геномные фрагменты с метилированными сайтами GATC по краям.

Модификации метода

Со времени изобретения ChIP-Seq было придумано множество модификаций этого метода, которые позволяют более эффективно выполнять те или иные подзадачи.

ChIA-PET

Данный метод применяется для определения взаимодействий участков хроматина, расположенных на значительном удалении друг от друга в геноме. В основе ChIA-PET лежит теория проксимального лигирования (англ. proximity ligation), гласящая, что концы участков хроматина, связанных с белковым комплексом, находящиеся рядом, будут лигироваться друг на друга с большей вероятностью, чем концы участков, находящихся в растворе или связанных с другим белковым комплексом.

PLAC-seq

Существует множество методов исследования дальних взаимодействий хроматина, но они требуют большого количества клеток для анализа. Для преодоления этого ограничения был разработан метод PLAC-seq (Proximity Ligation-Assisted ChIP-seq), в котором сшивка сближенных участков осуществляется в ядре до фрагментации хроматина и иммунопреципитации. PLAC-seq демонстрирует лучшую точность, эффективность и воспроизводимость по сравнению с ChIA-PET при определении дальних контактов в клетках млекопитающих.

Nano-ChIP-seq

Метод nano-ChIP-seq основан на том, что выделенная в ходе эксперимента ChIP ДНК амплифицируется с помощью ПЦР и уже после этого секвенируется. Это позволяет проводить анализ на малом количестве клеток, обычно около 10 тысяч. Тем не менее, достаточное число клеток зависит от множества факторов, таких как эффективность антител и обогащённость образца целевым белком, поэтому в каких-то случаях может понадобиться больше 10 тысяч клеток.

ChIP-exo и ChIP-nexus

Метод ChIP-exo — модификация протокола ChIP-seq, позволяющая улучшить разрешение найденных сайтов связывания от сотен пар оснований практически до одного нуклеотида. В ChIP-exo используется λ-экзонуклеаза для удаления контаминирующей ДНК и 5′-концов сшитых с целевым белком фрагментов ДНК вплоть до позиции на каком-то фиксированном расстоянии от места связывания белка. Так как в результате эксперимента ChIP образуются ДНК-фрагменты обеих цепей, выровненные 5′ концы картируются на две позиции генома, между которыми и находится сайт связывания белка. Эксперименты на дрожжах показали, что ChIP-exo позволяет идентифицировать сайты связывания с нуклеотидной точностью и в 40 раз бо́льшим отношением сигнал-шум по сравнению с ChIP-seq и ChIP-on-Chip.

Модификацией протокола ChIP-exo является протокол ChIP-nexus (ChIP experiments with nucleotide resolution through exonuclease, unique barcode and single ligation). В этом протоколе к ДНК лигируются специальные адапторы, которые содержат пару последовательностей для амплификации библиотеки, сайт рестриктазы BamHI и рандомизированный баркод, который позволяет отследить избыточную амплификацию фрагментов. Так же, как и в протоколе ChIP-exo, проводится обработка λ-экзонуклеазой, которая расщепляет ДНК с 5'-конца до физического препятствия в виде связанного с ДНК белка. После этого проводится внутримолекулярная циркуляризация ДНК, а затем релинеаризация путём обработки рестриктазой BamHI. Таким образом по краям интересующего фрагмента оказываются последовательности для амплификации. Этот дополнительный шаг позволяет улучшить эффективность встраивания ДНК-фрагментов в библиотеку.

Competition-ChIP

Competition-ChIP — модификация протокола ChIP-seq, использующаяся для измерения относительной динамики связывания транскрипционных факторов с ДНК. Идея метода основана на экспрессии двух копий изучаемого транскрипционного фактора с разными эпитопными метками. Одна из этих копий экспрессируется на постоянной основе, а экспрессия второй, выступающей в качестве конкурента, индуцибельна. Соотношение изоформ, ассоциированных с определёнными локусами, определяется либо с помощью ChIP-seq, либо ChIP-on-chip. Скорость замены конститутивно экспрессирующейся формы на индуцибельную позволяет рассчитать время пребывания исследуемого фактора на каждом сайте связывания.

CLIP-seq

CLIP-seq (также известный как HITS-CLIP — high-throughput sequencing of RNA isolated by crosslinking immunoprecipitation) — метод исследования РНК-белковых взаимодействий и модификаций РНК in vivo.

DRIP-seq и DRIVE-seq

R-петли — трехцепочечные структуры, образованные вытесненной одноцепочечной ДНК (оцДНК) и дуплексом РНК-оцДНК. In vivo на их долю приходится примерно 5-8 % генома. Через регуляцию связывания различных белков R-петли участвуют во многих клеточных процессах, таких как, например, дифференциация эмбриональных стволовых клеток. Для исследования R-петель был разработан метод DRIP-seq (DNA:RNA ImmunoPrecipitation and sequencing), который по сути очень похож на ChIP-Seq, но основан на использовании специфичных к R-петлям антител. Другим способом исследования R-петель является метод DRIVE-seq (DNA:RNA In Vitro Enrichment and sequencing), в котором вместо антител используется инактивированная эндонуклеаза MBP-RNASEH1. DRIVE-seq может быть использован для уточнения предсказаний, полученных с помощью DRIP-seq. Оба метода позволяют точно и практически количественно оценить число R-петель. Впервые DRIP-seq был использован для изучения R-петель в геноме человека: было показано, что большое их количество содержится в CpG островках промоторов.

CETCh-seq

Метод CETCh-seq создан для того, чтобы при изучении ДНК-белковых взаимодействий преодолеть такую техническую проблему, как доступность подходящих для ChIP-seq экспериментов антител. С помощью геномного редактирования с использованием CRISPR/Cas9 к интересующим белкам, например, транскрипционным факторам, присоединяется эпитоп для дальнейшего распознавания подходящими антителами.

CUT&RUN

CUT&RUN — модификация ChIP-seq, позволяющая сильно поднять соотношение сигнал/шум. Эффект достигается за счёт использования микрококковой нуклеазы, слитой с белком А, на стадии иммунопреципитации.

CUT&Tag

CUT&Tag — метод, аналогичный CUT&RUN, однако вместо микрококковой нуклеазы используется транспозаза Tn5. Преимущество этого метода над CUT&RUN заключается в том, что он не требует лизирования клеток и фракционирования хроматина.

Применение

ChIP-seq в принципе применим для любых белков, которые осаждаются в ходе иммунопреципитации хроматина. Типичным примером использования метода ChIP-seq является определение участков связывания транскрипционных факторов, ДНК-полимеразы, структурных белков, а также модификаций гистонов и структуры хроматина. В качестве альтернативы ChIP-seq был разработан ряд не использующих иммунопреципитацию методов (DNase-Seq и FAIRE-Seq) для определения свободных от нуклеосом участков ДНК.

Поиск мотивов

Одной из основных целей ChIP-seq экспериментов является поиск в последовательности ДНК мотивов для связывания белков. Участки ДНК, физически контактирующие с факторами транскрипции и другими белками, могут быть изолированы методом иммунопреципитации хроматина. В ходе эксперимента получается набор фрагментов ДНК, связанных с исследуемым белком in vivo. Дальнейший анализ включает использование массивного параллельного секвенирования и баз данных полных геномов для определения положения участков связывания в геноме. Наиболее широко используемый инструмент для обнаружения мотивов — алгоритм MEME (Multiple EM for Motif Elicitation). Часто множество мотивов может быть найдено на основе одного датасета и анализ мотивов может быть проведён даже на ChIP-seq данных низкого качества, но значимость и достоверность таких мотивов будет ниже.

Поиск участков с биологической функцией

Данные экспериментов ChIP-seq часто используются для определения регуляторных участков для интересующего локуса. В частности, ChIP-seq широко используется для изучения бактериальных регулонов. Для этого после нахождения участков связывания производится поиск предполагаемых регулируемых генов.

Дифференциальный анализ

Определение различий между профилями ChIP-Seq при разных условиях производится после вызова пиков. Пики, полученные в разных экспериментах, сливаются затем в один список. Для дальнейшего определения участков-кандидатов часто используются программы для анализа дифференциальной экспрессии генов, например, DESeq2 и edgeR. Эти программы способны проводить дифференциальный анализ, обрабатывая списки полученных пиков как списки «генов». Существуют также программы, разработанные специально для дифференциального анализа данных ChIP-Seq (например, DiffBind, ChIPComp, DBChIP), которые работают по схожему принципу. Многие другие программы (например, PePr) используют модели, не требующие предварительного вызова пиков.

Исследование состояния хроматина

Метилирование ДНК и модификации гистонов претерпевают сильные изменения в процессе переходов между стадиями развития и при заболеваниях, таких как рак, и таким образом вносят основной вклад в динамическую природу хроматина. Различные модификации гистонов исследуются с использованием специфичных антител, чтобы получить профиль гистоновых меток в образце. В собственных экспериментах консорциум ENCODE тщательно тестирует специфичность используемых антител на множестве различно модифицированных гистоновых концевых пептидов. Используются также общие источники клеток, которые профилированы и сравнены, для обеспечения согласованности между экспериментами. Современные методические рекомендации консорциума ENCODE охватывают валидацию антител, воспроизводимость экспериментов, глубину секвенирования, анализ качества данных, публикацию данных и метаданных.

Анализ аллельного дисбаланса

Всё больший интерес вызывает анализ данных ChIP-Seq со внутренним контролем по другому аллелю для выявления аллельного дисбаланса. При этом данные, полученные из эксперимента ChIP-Seq, используются для поиска связи биологических сигналов с однонуклеотидными полиморфизмами (SNP). Данный анализ включает три стадии:

выравнивание ридов, то есть определение позиции в геноме и аллеля для каждого рида,
подсчёт числа достоверно откартированных ридов для каждого SNP для каждого аллеля,
ранжирование возможных SNP и статистическая оценка аллельного дисбаланса.

Для первых двух этапов важна правильная стратегия картирования ридов на референсный геном, так как необходимо отличать ошибки секвенирования от реально существующих аллелей. Для третьего этапа разработано несколько программ, использующих разные статистические тесты, например, AlleleDB, NPBin и WASP.

Типы данных в энциклопедии ДНК элементов (ENCODE)

Базы данных

Геном многоклеточных организмов крайне сложен, и не до конца понятно в деталях, как происходит реализация наследственной информации. Детальное понимание работы генома требует наличие полного списка функциональных элементов и описания того, как они действуют в течение времени и в различных типах клеток. В попытке решения данной проблемы были созданы проекты ENCODE и modENCODE. Помимо результатов ChIP-seq, в ENCODE и modENCODE интегрируются данные таких анализов, как 5С и ChIA-PET, позволяющих определить конформацию хромосом; DNase-seq и FAIRE-Seq, позволяющих определить свободные от нуклеосом участки; бисульфитного секвенирования и Infinium Methylation Assay, позволяющих определить наличие метилцитозинов в ДНК, RT-PCR и секвенирования РНК, позволяющих определить уровень экспрессии генов, а также CLIP-seq и RIP-seq, позволяющих выявить РНК-белковые взаимодействия.

По состоянию на второе десятилетие XXI века существует ряд баз данных, содержащих результаты экспериментов ChIP-seq и их анализа:

ENCODE — на сайте проекта можно скачать координаты участков связывания ДНК с транскрипционными факторами или модифицированными гистонами, полученными в результате ChIP-seq. Содержит данные по различным клеточным линиям и тканям мыши и человека.
ChIP-Atlas — база данных для визуализации и использования общедоступных данных ChIP-seq. ChIP-Atlas охватывает почти все общедоступные данные ChIP-seq, представленные в SRA (Sequence Read Archives) в NCBI, DDBJ или ENA, и основан на более чем 118 000 экспериментов.
modENCODE — проект, посвящённый анализу ДНК-элементов плодовой мушки D. melanogaster и нематоды C. elegans.
Factorbook — база данных, сгенерированная на основе ENCODE.
ChIPBase — помимо человека и мыши, доступны результаты экспериментов ChIP-seq собаки, курицы, дрозофилы и нематоды C. elegans.
ChEA — ChIP-seq человека, мыши и крысы, можно получить список участков связывания с различными белками, в которые попал исследуемый ген.
CTCFBSDB — база данных участков связывания инсулятора CTCF.
hmChIP — ChIP-seq и ChIP-chip человека и мыши.
HOCOMOCO — база данных участков связывания транскрипционных факторов человека.
JASPAR — профили участков связывания транскрипционных факторов на основе ChIP-seq различных эукариот.
SwissRegulon — база данных аннотированных регуляторных сайтов.
CistromeMap — ChIP-Seq и DNase-Seq человека и мыши.
CR Cistrome — интегрированная база данных регуляторов хроматина, доступны результаты экспериментов ChIP-seq человека и мыши.

Исследования

Эукариоты

В качестве примера успешного использования ChIP-seq для изучения эукариот можно привести исследование нуклеосомной архитектуры промоторов. С помощью ChIP-seq удалось установить, что у дрожжей, возможно, имеются свободные от нуклеосом области промоторов (длиной примерно 150 н. п.), с которых РНК-полимераза может инициировать транскрипцию. Данный метод также был успешно применён для поиска сайтов связывания 22 транскрипционных факторов в геноме нематоды C. elegans. Для 20 % всех аннотированных генов генома нематоды были определены регулирующие их факторы транскрипции.

ChIP-seq также широко используется для изучения модификаций гистонов. Известно более 100 модификаций гистонов. Наример, известно, что ацетилирование, в частности, ацетилирование лизина 9 гистона Н3 (H3K9Ac), обычно ассоциируется с открытыми и доступными областями хроматина (эухроматином). В то же время метилирование гистонов может быть ассоциировано как с открытыми, так и с плотно упакованными областями хроматина (гетерохроматином). В частности, моно- и триметилирование лизина 4 гистона Н3 (H3K4me1 или H3K4me3) обычно ассоциируется с открытым хроматином, причём каждая из этих меток представляет особую категорию открытого хроматина: H3K4me3 маркирует промоторные регионы, H3K4me1 — маркирует транскрипционные энхансеры, H3K36me3 — маркирует транскрибируемые участки генома. Триметилирование лизинов 9 и 27 гистона Н3 (H3K9me3 и H3K27me3), напротив, ассоциируется с компактизацией хроматина и, как следствие, репрессией генов. H3K9me3 и H3K27me3 регулируют разные типы генов: H3K27me3 преимущественно подавляет гомеобоксные транскрипционные факторы, а целевыми генами H3K9me3 преимущественно являются транскрипционные факторы с мотивом «цинковые пальцы» (zinc finger transcription factors). Различные комбинации гистоновых меток могут обеспечить ещё более подробную информацию: например, присутствие сразу двух меток H3K4me3 (метки эухроматина) и H3K9me3 (метки гетерохроматина) на промоторе может быть идентификатором импринтируемых генов.

Прокариоты

У бактерий регуляция экспрессии генов на уровне транскрипции осуществляется с помощью транскрипционных факторов. Метод ChIP-seq может быть использован для определения участков связывания таких транскрипционных факторов. Некоторые бактериальные транскрипционные факторы имеют несколько сайтов связывания внутри промотора (то есть сайтов, расположенных на расстоянии менее 100 п.н.). Большинство алгоритмов поиска пиков определяют такие близко расположенные сайты как один. Для решения этой проблемы используются так называемые алгоритмы деконволюции пиков, например, CSDeconv, GEM, PICS или dPeak.

Следующим шагом после определения сайтов связывания является определение регулируемых генов. Обычно ассоциация найденных пиков с генами выполняется алгоритмически с помощью поиска близлежащих сайтов старта транскрипции (transcription start site, TSS). Однако в случае бактерий (в том числе E. coli) TSS могут быть не определены для многих генов, поэтому вместо TSS можно искать близлежащие сайты старта трансляции, вручную исследовать геномное окружение пика или использовать данные экспрессии генов (например, сравнивать экспрессию регулонов в диком типе и при делеции исследуемого транскрипционного фактора на основании данных RNA-seq).

Перспективы развития

Текущие успехи метода ChIP-seq уже позволяют анализировать образцы, содержащие гораздо меньше клеток, что значительно расширяет его применимость в таких областях, как эмбриология и биология развития, где получать большие образцы слишком дорого или трудно. Метод определённо имеет потенциал для обнаружения мутаций в сайтах связывания, которые влияют на связывание с белками и регуляцию экспрессии генов.

Однако становится очевидным, что проблемы ChIP-seq требуют новых экспериментальных, статистических и вычислительных решений. Необходимо снизить количество артефактов и ложно-положительных результатов, а также научиться отличать индивидуальные эффекты изучаемых явлений от контекстно-зависимых. Важные новые разработки связаны с обнаружением и анализом дистальных (находящихся на значительном расстоянии от гена) регуляторных областей. Возможно, с помощью ChIP-seq можно будет определять непрямое связывание ДНК, например, через дополнительные белки или комплексы белков, так как предсказанные сайты могут быть функциональными вне зависимости от наличия специфического мотива. Наконец, необходимо использовать дополнительную информацию (например, уровень экспрессии или данные о конформации хроматина), чтобы отличать реальную функциональность, так как связывание с ДНК не обязательно подразумевает определённую функцию.

Перспективным направлением является интеграция данных, полученных из большого числа экспериментов, для разрешения и анализа сложных взаимодействий. Для этой цели часто применяются различные методы машинного обучения.