Прочитана самая полная последовательность Y-хромосомы

Консорциум Telomere-to-Telomere в 2022 году представил самую полную последовательность генома человека, но без Y-хромосомы. В новой работе представлены результаты сборки недостающей хромосомы. Проанализировав новую последовательность, можно не только сделать важные для здоровья человека выводы, но и вычистить бактериальные сиквенсы от примесей человеческой ДНК, картируемой на неизвестные участки Y-хромосомы. В параллельно опубликованной статье представлены результаты секвенирования 43 хромосом представителей разных народов.

Credit:
123rf.com

Y-хромосома человека играет важную роль в фертильности; она содержит гены, необходимые для сперматогенеза, а также локус SRY, определяющий пол. Но несмотря на это, более половины последовательности Y-хромосомы отсутствует в референсном геноме GRCh38. Это связано со сложностями ее секвенирования из-за большого количества повторов и областей плотно упакованного и бедного генами хроматина (гетерохроматина). Консорциум Telomere-to-Telomere собрал все хромосомы клеточной линии CHM13, в чем ему помогли успехи нанопорового секвенирования и новые алгоритмы для сборки. Однако у этой линии нет Y-хромосомы, так что некоторое время сиквенс оставался неполным. В новой работе описаны результаты секвенирования тем же консорциумом Y-хромосомы генома HG002, обозначаемой как T2T-Y.

Для сборки Y-хромосомы авторы использовали ту же стратегию, что и при сборке генома T2T-CHM13, включая прочтения PacBio HiFi и ультрадлинные прочтения Oxford Nanopore (ONT). Черновую сборку Y-хромосомы валидировали с помощью коротких прочтений Illumina, а также нанопорового секвенирования HiFi и ONT.

Финальная сборка состоит из 62 460 029 п.н. без пробелов или модельных последовательностей. В нее входит ранее не охарактеризованный участок длиной приблизительно 30 Мб из гетерохроматиновой области. Для сравнения, Y-хромосома референсного генома GRCh38 состоит из двух сиквенсов длиной 57,2 Мб (30,8 Мб из которых — нерешенные пробелы) и 37,2 т.п.н. (не входит в основную последовательность). Гаплогруппа у Y-хромосомы HG002 — J-L816, или J1 (чаще всего встречается у евреев ашкенази), а у GRCh38 — R-L20, или R1b (чаще встречается в европейских популяциях), что соответствует известному происхождению этих геномов. T2T-Y объединили со сборкой T2T-CHM13v1.1, чтобы создать референс T2T-CHM13v2.0, обозначаемый как T2T-CHM13+Y.

В результате аннотации на Y-хромосоме выявили 693 гена и 883 транскрипта, из них 106 генов (488 транскриптов) предположительно кодируют белки. Таким образом, авторы обнаружили 110 дополнительных генов (41 из них белоккодирующий) по сравнению с референсом. Из них 38 — дополнительные копии TSPY, который предположительно вовлечен в выработку спермы. Также идентифицировали 29 ранее не известных повторов.

У человека центромеры содержат AT-богатые сателлиты (альфа-сателлиты), обычно собранные в повторы более высокого порядка. Авторы аннотировали 366 т.п.н. альфа-сателлитов в T2T-Y, а также нашли две гипометилированные области. Схожие области в районе центромеры были идентифицированы и на других хромосомах, включая 11 и 20.

Исследователи выявили важные черты областей Y-хромосомы, интересных с медицинской точки зрения, таких как область фактора азооспермии, которая содержит гены, вовлеченные в выработку спермы. Авторы изучили структуру набора палиндромов (инвертированных повторов) в этой области. Это очень важно, так как палиндромы могут создавать петли ДНК, которые вырезаются с образованием делеций. Делеции в области фактора азооспермии нарушают сперматогенез.

Авторы обратили особое внимание на ген TSPY. Известно, что несколько копий этого гена располагаются одна за другой в одной области, но, как и другие области с повторами, ее сложно анализировать. В новой работе авторы установили, что у разных людей может быть от 10 до 40 копий TSPY.

Полный сиквенс Y-хромосомы также поможет решить проблему загрязнения образцов — ДНК Y-хромосомы неоднократно принимали за бактериальную. Бактериальная ДНК часто бывает загрязнена человеческой, и ученые используют референсный геном для идентификации примесей. Но так как большая часть Y-хромосомы отсутствует в референсе, ученые не могли идентифицировать ее как человеческую и отделить от бактериальной. Авторы утверждают, что около 5000 бактериальных геномов в базе данных NCBI RefSeq содержат примеси, совпадающие с Y-хромосомой.

Одновременно с этой статьей вышла вторая работа, в рамках которой Human Genome Structural Variation Consortium секвенировал Y-хромосомы 43 мужчин из проекта «1000 геномов». Секвенирование проводили с помощью PacBio HiFi и ONT. Половина принадлежала к африканским линиям, включая самые древние A0b-L1038, A1a-M31 и B2b-M112.

Хромосомы сильно отличались по размерам — от 45,2 до 84,9 Мб (реальные размеры хромосом больше, так как в сборках существуют пробелы). Сильнее всего варьировали протяженности гетерохроматиновой и перицентромерной областей, а также DYZ19-повторов. Авторы идентифицировали инделы, инверсии и SNV при сравнении с референсом GRCh38, а также 21 случай инсерции мобильных генетических элементов.

Возможность собирать Y-хромосомы — долгожданный и критически важный шаг на пути к пониманию вариативности человеческого генома. Авторы считают, что это позволит соотнести последовательности Y-хромосомы с признаками и лучше понять эволюцию человека.

Прочитана самая полная последовательность генома человека

Источник:

Arang Rhie, et al. The complete sequence of a human Y chromosome // Nature (2023), published 23 August 2023, DOI: 10.1038/s41586-023-06457-y

Pille Hallast, et al. Assembly of 43 human Y chromosomes reveals extensive complexity and variation // Nature (2023), published 23 August 2023, DOI: 10.1038/s41586-023-06425-6

Добавить в избранное