TeloBase — новая база данных теломерных последовательностей

Чешские ученые создали новую базу данных теломерных мотивов под названием TeloBase путем анализа опубликованных статей и сырых сиквенсов из NCBI. База доступна онлайн и уже сейчас содержит последовательности теломер более 9000 видов. Пополнить ее могут любые зарегистрированные пользователи.

Credit:

Теломеры — сложные нуклеопротеиновые структуры, которые защищают кодирующие области генома от потерь вследствие неполной репликации. Именно наличие теломер отличает концы хромосом от разрывов ДНК. ДНК теломер обычно состоит из коротких тандемных повторов с последовательностью (TxAyGz)n. Первый теломерный мотив (TTGGGG)n был открыт у Tetrahymena thermophila более 40 лет назад. С тех пор были выявлены некоторые закономерности. Мотив (TTTAGGG)n был открыт у арабидопсиса, а затем его присутствие подтвердили у многих растений. Мотив (TTAGGG)n характерен для хордовых и некоторых других животных, (TTAGG)n — для многих членистоногих, (TTAGGC)n — для нематод. Однако не все так просто, и последовательности, считавшиеся каноничными для одних групп, обнаруживаются у других. До сих пор находят новые последовательности.

До настоящего времени существовали только две базы данных теломер — Telomerase database и Plant rDNA database. Однако там опубликована только малая часть существующих последовательностей, к тому же они редко пополняются, ведь их основной фокус лежит не на теломерах. Ученые из Масарикова университета (Чехия) создали свою базу данных TeloBase. Для этого они изучили опубликованную литературу, а также сиквенсы из базы данных NCBI, чтобы извлечь известные теломерные последовательности.

В первую очередь авторы пользовались ресурсами Google Scholar. Они выявили 1619 релевантных статей, что в 20–26 раз больше, чем охвачено двумя существующими базами данных теломер. При анализе сырых данных сиквенсов в базе NCBI авторы использовали Tandem Repeats Finder. Уже сейчас в базу внесены теломерные последовательности более 9000 видов.

TeloBase доступна онлайн. Ее могут пополнять все зарегистрированные пользователи, и новые данные появятся в базе после одобрения других пользователей.

Исследователи демонстрируют возможности TeloBase на примере грибка Aspergillus, у разных видов которого последовательности теломер значительно различаются. Так, у A. oryzae ранее была выявлена последовательность (TTAGGGTCAACA)n, а у A. nidulantes — (TTAGGG)n. База данных TeloBase позволила выявить новые последовательности у этого рода — (TAATTAGGG)n у A. taichungensis и (TTATTAGGG)n у A. transcarpathicus.

Также авторы выявили новый кандидатный мотив (TTTATTAGGG)n у семейства тропических растений Chrysobalanaceae. Ранее такую последовательность наблюдали только у красных водорослей.

По словам авторов, TeloBase позволяет не только хранить данные, но и взаимодействовать и визуализировать их. Туда достаточно просто внести новые данные, при этом они проверяются другими пользователями. Авторы надеются, что что их база данных послужит хорошим источником информации о разнообразии теломерных мотивов и их эволюции.

Протеогеномное профилирование рака: данные и инструменты

Источник:

Martin Lyčka, et al. TeloBase: a community-curated database of telomere sequences across the tree of life // Nucleic Acids Research (2023), published 21 August 2023, DOI: 10.1093/nar/gkad672

Добавить в избранное