Полная последовательность человеческого генома

Telomere-to-Telomere (T2T) Consortium представил самую полную и точную на настоящий момент сборку человеческого генома — T2T-CHM13. Она содержит в среднем одну ошибку на десять мегабаз. В T2T-CHM13, в отличие от предыдущей сборки GRCh38.p1, представлены последовательности p-плечей акроцентрических хромосом, сателлитные последовательности, перицентромерные и субтеломерные регионы. Ее основной недостаток — отсутствие Y-хромосомы.

Credit:
Tatiana Shepeleva | 123rf.com

После того, как в 2001 году был опубликован первый геном человека, его постоянно дополняли и улучшали. Однако эта сборка ограничивается эухроматиновыми районами генома, которые можно было клонировать в искусственные бактериальные хромосомы. Многие длинные тандемные повторы в нее не вошли; к тому же финальный продукт представлял собой мозаику из геномов разных людей. Все это привело к тому, что существующие пробелы в старой геномной последовательности невозможно закрыть.

Референсный геном GRCh38.p13 содержит пробелы общей длиной приблизительно в 151 мегабазу, в которые вошли, например, перицентромерные и субтеломерные регионы, а также p-плечи акроцентрических хромосом (13, 14, 15, 21 и 22) и сателлитные последовательности.

Telomere-to-Telomere (T2T) Consortium прочитал геном человека de novo, используя новые технологии секвенирования с длинными прочтениями (такие как PacBio HiFi и Oxford Nanopore) и почти полностью гомозиготную клеточную линию CHM13hTERT, или CHM13. В конце концов получили сиквенс из 3,055 миллиардов пар оснований.

Изначально собрали черновой вариант CHM13v0.9 с консенсусными последовательностями всех хромосом, кроме примерно десяти мегабаз, которые содержали гены рРНК. После этого его валидировали и «полировали», пока не получили сборку без пробелов — CHM13v1.1. Средняя точность сборки была между Phred Q67 и Q73, то есть одна ошибка на десять мегабаз. Регионы с низким покрытием, которые с большей вероятностью содержат ошибки, составляют всего 0,3% общей длины.

Новая сборка позволила исправить множество ошибок GRCh38.p13, добавила к сиквенсу еще 200 миллионов пар оснований, содержащих 2 226 генов-паралогов, среди них 115, предположительно кодирующих белки. Основной недостаток T2T-CHM13 — это отсутствие Y-хромосомы. Авторы сборки находятся в процессе ее секвенирования с использованием клеточной линии HG002.

Таким образом, на данный момент сборка T2T-CHM13 — самый полный, репрезентативный и точный референсный геном человека.

Источник

Nurk S., et al. // The complete sequence of a human genome // bioRxiv, published May 27, 2021, DOI: 10.1101/2021.05.26.445798

Добавить в избранное