Получен первый пангеном человека
Консорциум референсного пангенома человека (HRPC) представил первые плоды нескольких лет своей масштабной работы: сразу несколько вышедших в Nature публикаций посвящены первому черновику пангенома человека. Опубликованный пангеном основан на 47 диплоидных сборках индивидов из разных уголков земного шара и уже стал основой для нескольких важных выводов, связанных с изучением генетических вариаций. К 2024 году планируется расширить состав пангенома до 350 генетически разнообразных вариантов.
Darryl Leja, NHGRI
Что такое пангеном и зачем он нужен
Референсный геном человека уже более двух десятков лет используется в различных исследованиях, благодаря которым стали известны генетические причины многих заболеваний, эволюционные траектории и многое другое. Несмотря на всю его значимость для науки и медицины, он не лишен недостатков — так, большая часть референсных последовательностей, которые были получены в рамках проекта «Геном человека», имеют одно и то же происхождение, из-за чего многие генетические варианты, характерные для других популяций человека, представлены скудно или не представлены вообще. Это искажение референса, а также наличие в текущей сборке человеческого генома (GRCh38) «пробелов» суммарной протяженностью 210 Мб (порядка 6,7 %, если говорить об относительной доле) затрудняют проведение исследований. Решением проблемы могут послужить пангеномные методы, которым и посвящена серия опубликованных в журналах Nature статей.
Пангеном — это объединенный референсный геном, содержащий разнообразные характерные для данного вида генетические варианты и учитывающий различия между отдельными представителями вида. Он представляет собой геномный граф, отражающий вариабельность тех или иных участков последовательности ДНК.
Консорциум референсного пангенома человека (Human Pangenome Reference Consortium, HPRC), существующий с 2019 года, представил первый черновик пангенома человека. К настоящему моменту он основан на 47 диплоидных сборках генетически разнообразной когорты, набранной из различных человеческих популяций, однако исследователи планируют расширить число геномов в пангеномной сборке до 350, чтобы достовернее отражать генетическое разнообразие человека.
Как создается пангеном
Данные полногеномного секвенирования для этого проекта были получены при помощи различных технологий: PacBio HiFi, Oxford Nanopore для длинных прочтений, Hi-C Illumina для коротких прочтений с высоким покрытием, а также оптическое картирование Bionano. Кроме того, в работу были включены данные секвенирования геномов обоих родителей каждого из 47 участников выборки, полученные при помощи Illumina. Оценка качества сборки геномов показала, в частности, высокую точность в отношении повторяющихся элементов: корректно собраны были, к примеру, 95,4 % α-сателлитов, 94,3 % вариабельных тандемных повторов (VNTR) и 94,2 % коротких тандемных повторов (STR). Общая доля правильно собранных повторов составляла 98,8 %.
Для оценки полноты сборки каждого из геномов и вариаций числа копий (ориг. copy number polymorphism) их выравнивали на наиболее полный существующий к настоящему моменту референс — T2T-CHM13. Это опубликованная в марте 2022 года гаплоидная сборка генома человека, в которой представлены практически полные последовательности всех аутосом и X-хромосомы, за исключением отдельных участков рибосомальных генов. Согласно полученным результатам, 90% сателлитных и центромерных участков охватывались хотя бы одним из выравниваний, а однозначное покрытие оставшейся части референсного генома составляло около 99,12 % всей последовательности.
Для представления пангенома, как уже упоминалось, использовалась графовое отображение. Полученный пангеном — это двунаправленный граф, вершины которого соответствуют участкам последовательности ДНК, причем каждая из вершин может располагаться как в прямой, так и в обратной ориентации, и каждая пара вершин соединена четырьмя ребрами. Такая топология графа отражает все допустимые сочетания взаимных ориентаций фрагментов генома. Гаплотипы здесь являются возможными обходами геномного графа. Полученная модель, таким образом, представляет собой обобщенное множественное выравнивание сборок человеческого генома, из которых она составлена.
Для сборки описанного пангеномного графа применяли три различных алгоритма: Minigraph, Minigraph-Cactus и PanGenome Graph Builder (PGGB). Minigraph и надстройка над ним Minigraph-Cactus опирались при сборке графа на референсный геном (в качестве референса использовали два варианта — GRCh38 и T2T-CHM13). Minigraph-Cactus, помимо этого, использовал выравнивание по гомологии между сборками с помощью алгоритма Cactus (инструмент для множественных выравниваний генома), накладывая его на полученную при помощи Minigraph структуру пангенома. Третий вариант, PGGB, подразумевал минимальное использование референсных последовательностей — они применялись только для распределения контигов сборки по хромосомам. В остальном этот алгоритм конструировал пангеном при помощи all-vs-all выравнивания имеющихся сборок отдельных геномов.
Наименее объемным из полученных вариантов получился пангеном, собранный Minigraph (3,24 Гб); незначительно длиннее (3,29 Гб) версия Minigraph-Cactus. Граф, собранный PGGB, содержал большое количество сателлитных регионов, сильно различающихся структурно и исключенных прочими методами построения пангенома, поэтому был длиннее приблизительно на 5 Гб.
Контроль качества пангеномного референса
Полученные пангеномные графы необходимо было охарактеризовать с точки зрения представленных геномных вариаций. Для проведения этого анализа исследователи разложили пангеном на подграфы, соответствующие неперекрывающимся вариабельным участкам. Эти участки разделили на различные типы малых вариаций (small variants, <50 bp) и структурные вариации (≥50 bp). После того, как собранные разными методами версии пангенома были протестированы на применимость в качестве нового варианта референсной последовательности, ученые сосредоточились на анализе сложных мультиаллельных структурных вариаций, картирование которых на «традиционный» референсный геном является затруднительным.
Для этого было выбрано несколько локусов таких вариаций, для каждого из которых определили положение на пангеномном графе и проанализировали пути обхода полученных подграфов, аннотировав последовательности известными генами. Это позволило отследить отдельные гаплотипы, переходя от подграфа к структуре каждой отдельной сборки. Всего структурному анализу подвергли пять клинически значимых локусов: RHD–RHCE, HLA-A, CYP2D6–CYP2D7, C4 и LPA. Для трех последних исследователи воспроизвели описанные ранее гаплотипы, а для RHD–RHCE к тому же установили пять новых вариантов (в том числе одну дупликацию RHD и одну инверсию между RHD и RHCE, меняющую местами последние экзоны этих генов). В локусе HLA-A подтвердили два варианта делеции, уточнив конкретные точки этой перестройки, а также выявили инсерцию, содержащую псевдоген HLA-Y, — о таком варианте ранее не сообщалось, хотя по данным проведенного анализа, он встречается в анализируемых сборках с частотой 28 %.
Авторы работы акцентируют внимание на последнем обнаружении: «Мы наблюдаем гораздо большее разнообразие, чем мы ожидали. Новые данные помогут понять природу различий иммунных ответов на конкретные патогены у разных людей», — комментирует профессор Эрик Джарвис, один из ведущих авторов исследования, и подчеркивает, что «разнообразие вариантов главного комплекса гистосовместимости было невозможно изучать, используя старые подходы к секвенированию».
Спектр возможных применений
Говоря о важности получения пангенома человека, необходимо не только охарактеризовать качество референсной сборки нового типа, но и оценить ее потенциальные применения. Ученые уже предложили ряд направлений исследований, развитию которых может существенно поспособствовать пангеномный подход. Во-первых, картирование на пангеномный референс способно повысить точность обнаружения малых геномных вариаций при анализе секвенирования с короткими прочтениями. Во-вторых, пангеномные подходы могут подтолкнуть развитие методов популяционной генетики: для примера авторы работы приводят генную конверсию, затрагивающую второй экзон гена RHCE примерно в четверти проанализированных гаплотипов и детектированную при помощи пангеномного подхода. Помимо этого в качестве потенциальных приложений перечисляются генотипирование структурных вариаций или анализ тандемных повторов (точность последнего здесь может быть обеспечена надлежащей репрезентацией тандемных повторов в референсном геноме). Кроме того, картирование прочтений на пангеном может дать преимущество и в секвенировании РНК: частота ложных картирований на пангеномный граф значительно ниже, чем при применении линейного референсного генома.
Отдельная работа, в которой успешно применили пангеном человека в качестве референса, посвящена исследованию рекомбинационных процессов в негомологичных хромосомах.
Короткие плечи акроцентрических хромосом человека (13, 14, 15, 21 и 22) содержат протяженные участки, гомологичные между различными парами хромосом (псевдогомологичные участки). Картирование регионов этих хромосом на пангеномный граф выявило наличие участков, в которых находятся практически идентичные контиги, составляющие сборку анализируемого генома. На большинстве акроцентрических хромосом (кроме 15) наблюдаются признаки более высокой частоты рекомбинации между псевдогомологичными регионами. Подтвержденные при помощи пангеномного подхода, эти признаки указывают на возможность постоянного протекания робертсоновских транслокаций (вариант хромосомных перестроек, при котором происходит слияние акроцентрических хромосом) за счет таких псевдогомологичных участков. Полученные результаты также позволили лучше охарактеризовать само явление: псевдогомология между различными парами хромосом поддерживается высокой активностью рекомбинационных процессов.
Несмотря на то, что масштабы проделанной работы и разнообразие потенциальных применений пангенома человека уже впечатляют, это только начало. К середине 2024 года Консорциум референсного пангенома человека планирует расширить количество высокоточных сборок человеческих геномов как минимум до 350, чтобы обеспечить возможность детекции редких аллельных вариантов и предоставить еще более надежный референсный граф для множества будущих исследований.Цитата по пресс-релизу
Источники
Liao, WW. et al. A draft human pangenome reference // Nature (2023). DOI:
10.1038/s41586-023-05896-x
Guarracino, A. et al. Recombination between heterologous human acrocentric chromosomes // Nature (2023). DOI:
10.1038/s41586-023-05976-y
Vollger, M.R. et al. Increased mutation and gene conversion within human segmental duplications // Nature (2023). DOI:
10.1038/s41586-023-05895-y
Hickey, G. et al. Pangenome graph construction from genome alignments with Minigraph-Cactus // Nat Biotechnol (2023).
10.1038/s41587-023-01793-w