«Темный протеом» содержит множество коротких белков

Классическое определение белок-кодирующего гена подразумевает достаточно протяженную открытую рамку считывания (ORF), синтезированная с которой мРНК подвергается трансляции. Масштабное исследование несколько расширило эту точку зрения — его авторы показали, что не менее четверти неканонических ORF человека кодируют короткие белковые последовательности, которые ранее принимали за «шум» или продукт быстрой деградации других белков.

Credit:
123rf.com

Одной из главных неожиданностей, возникших после первого секвенирования генома человека, стало количество генов — оно составило менее трети от того, что предполагали некоторые ученые. Однако систематический анализ того, что по аналогии с темной материей вселенной называется «темным протеомом», позволяет предположить, что в эту оценку не вошли тысячи неканонических генов, которые скрыты в плохо изученных участках генома и производят малые количества белка. Работа крупного международного коллектива, посвященная многоуровневому анализу неканонических открытых рамок считывания (ncORF), продемонстрировала, что по меньшей мере четверть из 7 264 ncORF в клетках человека служат матрицей для синтеза транслируемых РНК.

Для поиска ncORF, которые транслируются в человеческие белки, авторы воспользовались платформой PeptideAtlas. На ее основе создали базу данных человеческих кодирующих последовательностей, которая, в частности, включает 7 264 неканонических ORF, обнаруженных методом рибосомного профилирования (Ribo-seq) и подтвержденных данными GENCODE.

Всего исследователи проверили более 3,8 миллиардов масс-спектров, собранных в ходе различных протеомных исследований. Анализ пептидов, полученных при обычном ферментативном расщеплении (как правило, трипсином) выявил 484 последовательности, которые соответствовали 183 из проанализированных ncORF. Из этих ORF 37 соответствовали критериям достоверности, тогда как среди канонических ORF этого уровня достигли 83%. Параллельно с этим авторы заметили, что ввиду малого размера ncORF (30-40 кодонов) их пептидные продукты может быть сложнее детектировать классическими методами, включающими трипсинолиз.

Исследование проводили, в частности, на пептидах, презентируемых в составе главного комплекса гистосовместимости (HLA). Из всего набора ncORF в эти данные вошли 1 785 пептидов. Ученые заметили, что практически все они были представлены только в HLA класса I. В то же время канонические белки часто обнаруживались и в данных HLA класса II, тогда как продукты ncORF там не встречались.

Основной целью работы стало создание стандартизованной аналитической основы и номенклатуры длядоказательства кодирующих функций некоторых ncORF на пептидном уровне. Авторы объединили протеомику, иммунопептидомику и рибосомное профилирование, чтобы классифицировать ncORF на несколько уровней. К первому из них (статус 1А — самый высокий уровень экспериментальной поддержки) они отнесли 37 проанализированных ncORF (0,5%).

Также ученые поставили в статье ряд вопросов, на которые исследовательскому сообществу предстоит ответить. Следует ли использовать иммунопептидомику HLA в качестве доказательства того, что ncORF содержит белок-кодирующий ген? Как следует аннотировать белки, функцию которых нельзя ни продемонстрировать, ни предположить? Как быть с белок-кодирующими ncORF, специфичными для раковых клеток? Кроме того, авторы обращают внимание на то, что их исследование подчеркивает разницу между идентификацией белка и аннотацией белок-кодирующего гена. Они рассчитывают, что дальнейшие работы в данной области, призванные дать ответы на эти вопросы и применить открытие на практике (например, для терапии или поиска биомаркеров), будут продвигаться с опорой на полученный результат.


Транскрипты «темной материи» генома — потенциальные биомаркеры заболеваний

Источник

Eric W. Deutsch, et al. High-quality peptide evidence for annotating non-canonical open reading frames as human proteins. // bioRxiv (2024). DOI: 10.1101/2024.09.09.612016

Добавить в избранное