Прочитана самая полная последовательность генома человека

Консорциум Telomere-to-Telomere (T2T) представил полную последовательность генома человека, которая содержит 3,055 млрд пар оснований. Она включает околоцентромерные и околотеломерные участки, короткие плечи акроцентричных хромосом, длинные тандемные повторы, рибосомную РНК и другие пробелы предыдущей версии. Новый вариант генома человека T2T-CHM13 включает 22 аутосомы и Х-хромосому; Y-хромосома в него не вошла.

Credit:
123rf.com

Большой международный консорциум Telomere-to-Telomere (T2T) опубликовал полную последовательность генома человека. Она содержит 3,055 млрд пар оснований, включая 151 миллион пар оснований (Mb), или 8% от всей длины человеческой ДНК, которые до сих пор оставались непрочитанными. В специальном выпуске журнала Science целых шесть статей посвящены этому прорывному достижению. Остановимся на первой, в которой изложены основные результаты. (Эта статья была опубликована в виде препринта летом прошлого года, тогда мы разместили короткую новость об этом.)

Геном человека, опубликованный в 2001 году компанией Celera Genomics и Международным консорциумом по секвекнированию генома человека (International Human Genome Sequencing Consortium), представляет собой «черновик», в котором содержится много пробелов. Этот черновик несколько раз обновляли, последний раз в 2019 году. Однако даже с этими обновлениями он покрывал в основном эухроматиновые участки хромосом, но не гетерохоматиновые. Эухроматиновые участки, в которых хроматин не конденсирован и слабо окрашивается красителями, содержат основную часть активных генов; гетерохроматиновые же состоят из конденсированых, хорошо окрашиваемых блоков хроматина, в них мало генов, и они, по-видимому, обычно не активны.

Существующий референсный геном человека GRCh38.p13 имеет пробелы в регионах, примыкающих к центромерам и теломерам хромосом; непрочитанными оставались короткие плечи акроцентрических хромосом (13-й,14-й,15-й,21-й и 22-й), многие длинные тандемные повторы, сателлитные последовательности, рибосомная ДНК и др. Кроме того, в некоторых участках последовательности содержались ошибки.

В консорциум Telomere-to-Telomere (T2T) вошли ученые из 54 научных организаций разных стран, в том числе из пяти российских. Его название возникло из задачи — прочитать хромосомы полностью «от теломеры до теломеры». Для этого специалисты сделали ставку на новые технологии, которые дают возможность не только глубокого секвенирования, но и прочтения длинных фрагментов (ридов). Об этом PCR.news рассказал Евгений Рогаев, профессор МГУ им Ломоносова и Массачусетского университета, и руководитель Научного центра генетики и наук о жизни университета Сириус и лаборатории эволюционной геномики Института общей генетики РАН. Он и сотрудники его лаборатории — участники консорциума.

«Новые методы “длинного чтения” обеспечены двумя платформами. Pacific Bioscience позволяет читать десятки килобаз, а Oxford Nanopore обеспечивает ультрадлинное чтение — до миллиона нуклеотидов, — объясняет Рогаев. — Эти платформы применялись и раньше, но у них есть недостаток — большой процент ошибок. Но теперь разработаны методы для Pac Bio, умеющие сами себя чистить, и комбинация разных методов позволяет читать длинные последовательности, при этом очень точно».

Важен был выбор конкретного генома для секвенирования. Для этого ученые использовали гомозиготную клеточную линию CHM13. Она создана из клеток пузырного заноса — при возникновении этой патологии в оплодотворенной яйцеклетке, потерявшей свои «материнские» хромосомы, хромосомный набор из сперматозоида удваивается. Линия CHM13 — диплоидная с двойным набором отцовских хромосом, причем с Х хромосомой (кариотип 46,XX). Эта линия гомозиготна по всем аллелям, и с ней гораздо удобнее работать.

На основе секвенированных длинных ридов ученые производили сборку de novo последовательности генома. Среднее покрытие секвенирования для Pac Bio технологии составило 34,70, для Oxford Nanopore — 116,16.

Комментирует Евгений Рогаев.

«Наша группа в этом проекте занималась анализом центромерных альфоидных повторов ДНК, из которых и состоят в значительной степени центромерные и прицентромерные участки хромосом. В частности, такой анализ осуществляли Иван Александров и Лев Уральский, с использованием специальных биоинформатических компьютерных методов. Центромеры играют важную роль в делении клеток и они, как правило, состоят из тандемно повторяющихся единиц последовательности ДНК. Интересно, что мы еще в 1986 году занимались клонированием этих самых центромерных альфоидных повторов и показали, что они не гомогенные, а отличаются друг от друга. Однако до сих пор было очень трудно точно определить, как они друг за другом располагаются на всех хромосомах, поэтому в исходном референсном геноме в этих участках были “дырки”. Также, в прошлой версии генома были участки ДНК, которые было невозможно никуда “воткнуть” — теперь они нашли свое место в последовательности, контиге».

Полный секвенированный геном человека, получивший название T2T-CHM13, состоит из 3,055 миллиардов пар оснований ядерной ДНК и 16 569 пар оснований митохондриальной ДНК. Он содержит полностью прочитанные 22 аутосомы и Х-хромосому. По сравнению с прошлой версией генома (GRCh38) в новой версии исправлено множество ошибок и добавлено 182 миллиона новых пар оснований. Последовательность T2T-CHM13 включает все околоцентромерные и околотеломерные участки, короткие плечи пяти акроцентрических хромосом, длинные тандемные повторы, рибосомную ДНК и другие непрочитанные ранее элементы.

В геноме T2T-CHM13 насчитывается 63 494 гена из которых 19 969 предположительно кодируют белки (в версии GRCh38 — 60 090 генов, из них 19 890 кодирующих). Впервые секвенированные участки содержат 2 226 паралогичных копий генов, 115 из которых, возможно, кодируют белки. Очень важной частью работы и, как пишут авторы, наиболее сложной была сборка рибосомных генов, которые отличаются высокой полиморфностью.

Теперь последовательность T2T-CHM13 может использоваться при исследованиях как последняя версия референсного генома. Ученые считают, что прочтение ДНК «от теломеры к теломере» обозначило новый этап в геномике, на котором в геноме человека не осталось «белых пятен». Высокоточное секвенирование длинных ридов позволило преодолеть технологический барьер и достичь одновременно и полноты охвата, и точности. Основным ограничением генома T2T-CHM13 авторы называют отсутствие Y-хромосомы. Ее полное секвенирование планируется на следующем этапе работы, к которому консорциум уже приступил, с использованием клеточной линии HG002 с кариотипом 46 XY.

Источник

Sergey Nurk et al. The complete sequence of a human genome // Science, 31 Mar 2022. Vol 376, Issue 6588, pp. 44-53. DOI: 10.1126/science.abj6987

Добавить в избранное