Unknome: первая база данных неизвестных белков

Обычно исследователи стремятся к тому, чтобы создаваемые ими базы данных со временем расширялись, но авторы нового проекта Unknome надеются на обратное. Эта база данных содержит гены, функции которых неизвестны или почти неизвестны. Ее ценность для идентификации новых биологически значимых генов исследователи подтвердили с помощью скрининга на дрозофилах, и теперь выражают надежду, что их проект ускорит характеризацию функций различных белков и углубит понимание многих механизмов.

Credit:
123rf.com

Ученые из Соединенного Королевства создали базу данных мало- и неизученных белков человека. Они руководствовались данными о человеческом геноме — в нем идентифицировано множество последовательностей в человеческом геноме, которые кодируют слабо охарактеризованные белки или с большой вероятностью окажутся белок-кодирующими.

Развитие секвенирования и сборка полного человеческого генома позволили обнаружить тысячи белок-кодирующих последовательностей, которые не были идентифицированы в ходе более ранних биохимических или генетических исследований. После опубликования первой последовательности генома человека ученые подтвердили экспрессию большинства этих новых белков с помощью транскриптомики и протеомики. Для многих из них удалось определить функцию, однако, несмотря на более чем 20-летнюю работу, роль тысяч других белков до сих пор не установлена.

В новой базе данных, названной Unknome (такое название родилось из словосочетания «unknown genome»), содержатся степени изученности («knownness») того или иного белка. Этот показатель отражает количество доступных характеристик белка: функций, внутриклеточной локализации, степени консервативности и т.д. Для нескольких тысяч белков коэффициент изученности оказался близким к нулю.

Присваиваемый балл изученности основан на широко используемых аннотациях генной онтологии (GO). Вклад каждой из подкатегорий GO (например, молекулярной функции белка) определяется пользователем, как и организм, для которого рассчитывается изученность белков. Сейчас в базе, помимо человека, доступен ряд популярных модельных организмов: Drosophila melanogaster, Danio rerio, Escherichia coli и ряд других (суммарно 12 видов). Пользовательские настройки позволяют также отражать степень консервативности в других видах, чтобы, например, выбрать те белки с неизвестной функцией, которые характеризуются высокой эволюционной консервативностью или имеют ортологи у человека. Авторы отмечают, что, хотя ортологичные белки у разных видов не обязаны выполнять одинаковые функции, они зачастую задействованы в схожих процессах — это позволит выдвигать достаточно правдоподобные гипотезы для дальнейшей проверки.

Создав базу данных, исследователи подтвердили ее ценность экспериментальным путем. Для этого они выбрали в ней 260 неизвестных человеческих белков, обладающих достаточным консервативным сходством с белками D. melanogaster, и на модельных дрозофилах охарактеризовали их вклад в различные биологические процессы. Для этого авторы работы провели нокдаун при помощи РНК-интерференции — они воспользовались библиотекой коротких шпилечных РНК (shRNA). Функции некоторых генов затем подтверждали или уточняли, используя нокаут с помощью CRISPR-Cas9.

Ряд неизученных белков оказался необходимым для выживания — нокдаун таких белков был летален. Роль еще 198 генов, нокдаун которых сказывался на жизнеспособности менее критическим образом, ученые охарактеризовали подробнее. Так, многие из ранее не изученных белков влияли на фертильность самцов и самок, реакцию на голодание, оксидативный стресс, развитие тканей и передвижение.

Так, семь из исследуемых генов при отключении приводили к практически полной стерильности самцов, а нокдаун еще пяти существенно уменьшал численность потомства. Мужская стерильность у человека — один из симптомов первичной цилиарной дискинезии (PCD), которая ассоциирована с нарушением функции ресничек и жгутиков. Исследователи обратили внимание на гомологию некоторых из них с генами человека (например, ARMC4 и DNAAF5), для которых уже была показана ассоциация с PCD.

Восемь других генов оказались важны в условиях голодания. Они существенно улучшали выживаемость дрозофил при дефиците аминокислот. Исследователи отметили, что для пяти из них известны ортологи, предположительно влияющие на работу эндосомальной системы. Аналогичным образом ученые выявили 11 ранее не охарактеризованных генов, участвующих в ответе на окислительный стресс. Некоторые их ортологи, согласно литературным данным, важны для защиты клетки от активных форм кислорода (АФК). Авторы работы предполагают, что 5 из 11 идентифицированных генов задействованы в митохондриальных сигнальных путях и ответе клетки на АФК, хотя и отмечают, что этот вопрос требует детального изучения.

Кроме того, скрининг с помощью shRNA-библиотеки выявил несколько новых генов-участников сигнального пути Notch. Этот высококонсервативный сигнальный путь играет ключевую роль в эмбриогенезе и обеспечивает формирование нервной системы.

Полученные результаты демонстрируют ценность новой базы данных для выявления новых биологически значимых генов. Авторы надеются, что их работа вдохновит другие коллективы на дальнейшие исследования, которые позволят сократить объем Unknome. «Эти неохарактеризованные гены не заслуживают такого невнимания», — комментирует доктор Шон Манро, один из руководителей проекта. «Наша база данных послужит мощной, универсальной и эффективной платформой, которая позволит выявлять и отбирать важные гены с неизвестной функцией для анализа, тем самым ускоряя заполнение тех пробелов в биологических знаниях, которые составляет неизученный геном».


Цитата по пресс-релизу

Получен первый пангеном человека

Источник

Munro, S. et al. Functional unknomics: Systematic screening of conserved genes of unknown function. // PLoS Biology (2023). DOI: 10.1371/journal.pbio.3002222

Добавить в избранное