Продолжая использовать сайт, вы даете свое согласие на работу с этими файлами.
Полногеномный поиск ассоциаций
Полногено́мный по́иск ассоциа́ций (англ. genome-wide association studies, GWA study, GWAS) — направление биологических (как правило, биомедицинских) исследований, связанных с исследованием ассоциаций между геномными вариантами и фенотипическими признаками. Часто под полногеномным поиском ассоциаций подразумевают только поиск связей между однонуклеотидными полиморфизмами (англ. single-nucleotide polymorphism, SNP) и заболеваниями человека, однако термин употребим и к другим организмам. Основная цель полногеномного поиска ассоциаций заключается в идентификации генетических факторов риска, чтобы дать обоснованный прогноз о предрасположенности к заболеванию, а также в выявлении биологических основ восприимчивости к болезни для разработки новых стратегий профилактики и лечения.
В исследованиях такого типа обычно сравнивают геномы группы больных людей, имеющих разные фенотипы, с геномами контрольной группы, включающей в себя аналогичных по возрасту, полу и другим признакам здоровых людей. С помощью GWAS можно сравнивать не только геномы пациентов, но и здоровых людей, имеющих разные проявления одного и того же фенотипического признака. Материалом для исследования являются образцы геномной ДНК каждого участника исследования, в которой с помощью микрочипов ищут SNP. Если удаётся выявить варианты геномов (точнее, совокупность аллелей), которые значимо чаще встречаются у людей с данным заболеванием, то говорят, что такой вариант связан (или ассоциирован) с болезнью. В отличие от методов, которые проверяют один или несколько конкретных участков генома, полногеномный поиск ассоциаций использует полную последовательность ДНК. Следует отметить, что этот подход к исследованиям не выявляет мутации, ставшие причиной заболевания, а только более или менее значительную корреляцию с заболеванием или другим признаком. Например, с помощью GWAS был идентифицирован SNP (замена G на A) в 5'-нетранслируемой области гена FOXE1, который связан с повышенным риском рака щитовидной железы.
Вторая по важности область применения полногеномного анализа ассоциаций — фармакогенетика, то есть поиск аллелей, связанных с метаболизмом лекарственных препаратов и их побочными эффектами.
Содержание
История
Результаты первого успешного полногеномного поиска ассоциаций были опубликованы в 2002 году; исследователи искали геномные варианты, связанные с предрасположенностью к инфаркту миокарда. В 2005 году методику GWAS применили к группе больных макулодистрофией. В результате исследования были обнаружены два аутосомных однонуклеотидных полиморфизма, ассоциированных с макулодистрофией. По состоянию на 2017 год, в исследованиях GWAS приняли участие тысячи людей. В более чем 3000 проектах GWAS изучалось более 1800 заболеваний и фенотипических признаков, по результатам исследований удалось выявить более тысячи SNP, ассоциированных с болезнями.
Предпосылки
Геномы двух любых людей имеют огромное число различий. Это могут быть как однонуклеотидные полиморфизмы, так и более крупные изменения: делеции, вставки и изменения копийности генов. Любое из этих различий может отвечать за отдельные характерные особенности индивидуума (например, цвет глаз, цвет волос) или стать причиной заболевания. До появления методов для полногеномного поиска ассоциаций исследования основывались на анализе сцепленного наследования в семьях. Этот подход оказался весьма эффективным для выявления генов, ответственных за заболевания с простым менделевским наследованием, таких как муковисцидоз. Тем не менее, подобные генетические исследования оказались малоэффективными для выявления причин более сложных заболеваний. В качестве альтернативы для этого метода был предложен полногеномный поиск ассоциаций. Этот тип исследований основан на анализе частоты аллелей различных генов среди индивидуумов. Если при сравнении те или иные аллели генов встречаются у людей с исследуемым фенотипом (например, у носителей болезни) значимо чаще, чем у других, то есть основания предполагать, что именно эти аллели ответственны за проявление этого фенотипа. Отсчёты мощности статистических тестов, применяемых для полногеномного поиска ассоциаций, показывали, что этот способ лучше, чем другие, такие как исследование сцепления, подходит для обнаружения слабых генетических эффектов.
Некоторые дополнительные факторы также оказали влияние на развитие исследований по поиску полногеномных ассоциаций. Одним из них стало появление биобанков, представляющих собой хранилища человеческого генетического материала, что облегчало сбор биологических образцов для исследований. Другим таким фактором оказался международный проект HapMap, являющийся каталогом однонуклеотидных полиморфизмов (SNP). Важное значение имело развитие генотипирования всех SNP с помощью SNP-чипов.
Методы
В основе поиска полногеномных ассоциаций, как правило, лежит сравнение геномов двух групп людей: носителей исследуемого фенотипа (заболевания) и контрольной группы. Для всех индивидуумов производится генотипирование для большинства известных однонуклеотидных полиморфизмов (SNP) с помощью ДНК-микрочипов. Количество SNP, включённых в анализ, зависит от метода генотипирования, но, как правило, оно не меньше миллиона. Секвенирование в GWAS не используется. Далее для каждого SNP проверяется, насколько значимы различия в распределении частот аллелей между исследуемой и контрольной группой. В этих исследованиях ключевым параметром, характеризующим выраженность различий, выступает отношение шансов. Отношение шансов — это отношение вероятности того, что индивидуум, имеющий определённый аллель, страдает от исследуемого заболевания, и отношение вероятности иметь болезнь для индивидуума, не имеющего этого аллеля. Если частота некоторого аллеля гораздо выше в исследуемой выборке, чем в контрольной группе, отношение шансов больше 1 и меньше 1, если в исследуемой выборке некоторый аллель более редок, чем в контрольной. Кроме того, с помощью критерия χ² рассчитывается P-значение, характеризующее значимость отношения шансов. Целью GWAS является выявление отношений шансов, больших 1, поскольку они указывают на SNP, связанные с болезнью.
Альтернативой делению на две группы в полногеномных исследованиях является количественный анализ фенотипа, например, рост, концентрация биомаркеров или экспрессия генов. Кроме того, могут быть использованы данные о пенетрантности исследуемых аллелей. Расчёты обычно выполняются с помощью биоинформатических программ, таких как SNPTEST и PLINK, которые учитывают разнообразные альтернативные статистики. Первоначально GWAS фокусировался на эффектах отдельных SNP. Однако исследования показали, что на развитие сложных заболеваний может оказывать взаимодействие нескольких SNP — эпистаз. Кроме того, в настоящее время исследователи стараются связать данные GWAS с другими биологическими данными, например, с сетью белок-белковых взаимодействий, чтобы получить наиболее информативные результаты.
Ключевой этап GWAS — импутация генотипов на SNP-микрочип, содержащий большое число вариантов разных SNP. Благодаря этому этапу можно увеличить число SNP, которые следует проверить на связь с исследуемым фенотипом, увеличить обхват исследования и облегчить дальнейший мета-анализ результатов GWAS на различных когортах. Импутация генотипов производится при помощи специальных статистических методов, которые «накладывают» данные GWAS на референсную панель с контрольными гаплотипами. Импутации аллелей очень помогает наличие одинаковых последовательностей в гаплотипах, полученных от разных индивидуумов. Импутацию генотипов можно осуществить с помощью программ IMPUTE2 и MaCH.
При GWAS также принимают во внимание переменные, которые могут оказать влияние как на зависимые, так и независимые переменные в проводимом анализе. Такими переменными могут быть, например, возраст и пол. Более того, известно, что многие генетические вариации ассоциированы с географическими и историческими популяциями, в которых они появились. В связи с этим анализ должен учитывать этническую и географическую принадлежность участника исследования, контролируя стратификацию популяций. Если не учитывать эти параметры, анализ может дать ложноположительные результаты.
После того, как для всех SNP были рассчитаны отношения шансов и P-значение, создаётся манхэттенский график. На этом графике отрицательный логарифм от P-значения рассматривается как функция от координаты в геноме. Поэтому SNP с наиболее сильным влиянием выступают на графике. Кроме того, пороговое значение P-значения, свидетельствующее о значимости, подвергается коррекции на множественное тестирование. Пороговое значение может быть разным в разных исследованиях, но чаще всего оно принимается равным 5 × 10−8 для анализа, в котором рассматривались сотни тысяч и миллионы SNP.
Результаты
Предпринимаются попытки создать всеобъемлющие каталоги однонуклеотидных полиморфизмов, связанных с различными признаками. Количество найденных локусов сильно варьирует в зависимости от заболевания: от нескольких в случае психических заболеваний до ста и более в случае воспалительных заболеваний кишечника, например, болезни Крона или язвенного колита.
В первом исследовании по полногеномному поиску ассоциаций, проведённом в 2005 году, исследовалась возрастная макулодистрофия. В исследовании приняло участие 96 больных и 50 здоровых людей. Были обнаружены два однонуклеотидных полиморфизма со значимым различием частот в двух группах. Эти полиморфизмы были расположены в гене фактора H системы комплемента. Это исследование подстегнуло дальнейшее исследование этого белка.
Другая важная веха в истории полногеномного поиска ассоциаций — исследования «случай-контроль» консорциумом, принадлежащим Wellcome Trust. На момент публикации (2007 год) это было крупнейшее исследование такого типа. Выборка насчитывала 14 000 случаев распространённых общих заболеваний по 2000 случаев каждого. К числу рассмотренных болезней относятся коронарная недостаточность, сахарный диабет 1-го типа, сахарный диабет 2-го типа, ревматоидный артрит, болезнь Крона, биполярное расстройство и артериальная гипертензия. Размер контрольной группы составлял 3000 человек. Было выявлено 500 тысяч генетических вариаций и 10 генов, обусловливающих предрасположенность к этим заболеваниям.
После первых успешных исследований наметились два направления дальнейшего развития GWAS. Одно из них состояло в увеличении исследуемой выборки. К 2018 году было проведено несколько GWAS, в которых в состав исследуемой группы входило более миллиона человек. Например, в поиск генетических основ уровня образования вовлекли 1,1 миллиона человек, а в изучении бессонницы приняли участие 1,3 миллиона человек. Увеличение исследуемой выборки позволяет выявить связанные с заболеванием SNP, которые имеют меньшее отношение шансов и меньшую частоту потенциально опасных аллелей. Второе направление заключается в использовании как можно более узких фенотипических черт, таких как концентрация липидов в крови, проинсулина и других биомаркеров. Они называются промежуточными фенотипами, и их анализ очень важен для функциональных исследований биомаркеров. В некоторых вариантах GWAS исследуются ближайшие кровные родственники пациентов. Они получили название GWAX от англ. genome-wide association study by proxy.
Главным спорным моментом относительно GWAS является то, что большинство SNP, выявленных с помощью GWAS, повышают риск заболеваний лишь совсем немного и имеют малую предсказательную силу. Медиана отношений шансов составляет 1,33 на SNP, связанный с заболеванием, и лишь для некоторых из них отношение шансов больше 3. Величины такого порядка считаются малыми, потому что они не объясняют большую часть наследуемых вариаций. Наследуемые вариации обычно изучают на однояйцевых близнецах. Например, установлено, что 80—90 % вариаций роста имеют наследственную природу, но GWAS значительно занизил этот показатель.
Применение в медицине
Одной из задач на будущее является применение полногеномного поиска ассоциаций в разработке лекарств и развитии диагностики. Были проведены некоторые исследования применения маркерных однонуклеотидных полиморфизмов для повышения точности прогноза заболеваний, но значимость этого применения остаётся предметом споров. В целом проблемой такого подхода является слабый наблюдаемый эффект, что практически не способствует повышению точности прогноза. Тем не менее, данный подход нашёл успешное применение в патофизиологии. Одним из примеров этого является идентификация генетического варианта, ассоциированного с ответом на лечение гепатита C. Было показано, что лечение гепатита C генотипа 1 с помощью пегилированного интерферона альфа-2а или пегилированного интерферона альфа-2b, комбинированного с рибавирином, вызывает разные ответные реакции, ассоциированные с однонуклеотидными полиморфизмами рядом с человеческим геном, кодирующим интерлейкин 28B. Также было продемонстрировано, что те же самые генетические варианты ответственны за спонтанное самоизлечение от вируса гепатита C генотипа 1.
Внедрение GWAS в патофизиологию подогрело интерес к поиску связей между связанными с риском SNP и экспрессией соседних генов, известных как локусы, определяющие количественные характеристики экспрессии (англ. expression quantitative trait loci (eQTL)). Дело в том, что GWAS определяет связанные с риском SNP, а не гены, но для разработки препаратов важны именно затронутые гены. Поэтому с 2011 года крупные GWAS включают анализ eQTL. Одним из наиболее ярких eQTL, связанных с выявленным GWAS SNP, является локус SORT1. Изучение этого локуса с помощью малых интерферирующих РНК и нокаутных мышей прояснило многие аспекты метаболизма липопротеинов низкой плотности, которые имеют важное значение для развития сердечно-сосудистых заболеваний.
Ограничения
Существуют некоторые проблемы и ограничения, связанные с полногеномным поиском ассоциаций, и используемые в связи с этим методы контроля качества и дизайна исследований. Отсутствие чётко определённых тестовой и контрольной выборок, недостаточный объём выборки, необходимость коррекции на множественные тестирования и контроля стратификации популяций являются основными сложностями. В связи с этим было отмечено, что «подход полногеномного поиска ассоциаций может быть проблематичным, потому что огромное количество статистических тестов дают беспрецедентную возможность ложноположительных результатов». Однако, помимо этих легко устраняемых сложностей, с GWAS связано много нетривиальных проблем. Например, они всплыли на поверхность при высокопрофильном GWAS, направленном на поиск SNP, связанных с долголетием, на выборке индивидуумов с очень высокой продолжительностью жизни. Публикация подверглась строгой критике из-за несоответствия генотипирующих чипов для исследуемой и контрольной группы, из-за чего многие SNP были ошибочно связаны с долголетием. Статья была отозвана, однако после доработки её всё-таки опубликовали.
GWAS подвергается критике и более глобально, в основном из-за допущения, что обычные генетические вариации играют большую роль в наследственной природе распространённых заболеваний. Более того, резкое снижение цены на полногеномное секвенирование показало возможность альтернативы GWAS, основанных на генотипирующих микрочипах.