Дмитрий Пензар: «Пространственная структура РНК — один из важных факторов, определяющих, как долго она существует в клетке»
Команда Института общей генетики РАН заняла первое место в международном конкурсе Стэнфордского университета по определению пространственной структуры РНК. В команду вошли молодые сотрудники лаборатории системной биологии и вычислительной генетики ИОГен (руководитель чл.-корр. РАН Всеволод Макеев) и студенты Факультета биоинженерии и биоинформатики МГУ.
Команда биоинформатиков ИОГен РАН заняла первое место в конкурсе Стэнфордского университета Stanford Ribonanza RNA Folding по предсказанию элементов пространственной структуры РНК, опередив более 700 команд со всего мира.
Предсказание пространственной структуры макромолекул — не только фундаментальная проблема. Представление о том, какую трехмерную структуру образует молекула РНК с определенной последовательностью нуклеотидов, играет ключевую роль в разработке и оптимизации РНК-вакцин и других медицинских препаратов на основе РНК.
Лидер команды — Дмитрий Пензар (аспирант ИОГен РАН, руководитель — д.б.н. И.В. Кулаковский). Также в команду вошли научный сотрудник ИОГен РАН Арсений Зинкевич, студенты ФББ МГУ Валерий Вяльцев, Елизавета Носкова, и Артемий Бакулин.
Из пресс-релиза ИОГен РАН
«Вычислительные биологи из ИОГен РАН не первый раз выигрывают международные конкурсы «предсказателей». В 2016 году и 2022 годах сотрудники лаборатории занимали первые места в конкурсах, объявленных консорциумом DREAM. В 2016 году конкурс был посвящен предсказанию регуляторных сегментов генома, промоторов и участков связывания факторов транскрипции; в 2022 году сотрудники лаборатории победили в конкурсе DREAM 2022 по предсказанию влияния промоторов, предложив полносверточную архитектуру LegNet, на голову обошедшую модели конкурентов.
Тематика вычислительного анализа биологических макромолекул методами машинного обучения поддерживается в лаборатории системной биологии и вычислительной генетики ИОГен РАН с 2011 года. В лаборатории создана база данных HOCOMOCO текстовых мотивов в последовательностях ДНК, связывающих регуляторные белки, используемая в большинстве мировых исследовательских центров. С 2011 года группа под руководством В.Ю. Макеева является членом консорциума RIKEN FANTOM, базирующаяся в Японии, по исследованию тканеспецифической экспрессии генов; сотрудники лаборатории участвуют в ряде других международных исследовательских проектов.
Дмитрий Пензар ответил на вопросы PCR.NEWS.
Дмитрий, прежде всего, поздравляю вас и вашу команду! Расскажите, в чем была суть вашей задачи?
Сейчас уже существует успешный метод предсказания пространственной структуры белков по последовательности. Он работает не всегда идеально, но в большинстве случаев работает. А для РНК такого метода нет. И напрямую создать такой метод достаточно затруднительно. Поэтому авторы конкурса провели эксперимент, который позволяет оценить для каждого нуклеотида в последовательности РНК, насколько этот нуклеотид доступен для модификации, насколько он не защищен от химического реагента, который будет плавать в растворе. Это, в свою очередь, очень хорошо коррелирует с тем, насколько этот нуклеотид встроен в какие-либо структуры РНК, насколько он участвует в каких-то взаимодействиях. А если вы это знаете, вы используете реактивность в программе для предсказания пространственной структуры, например trRosettaRNA. Авторы получили достаточно много подобных данных, и наша задача состояла в том, чтобы на них обучить модель машинного обучения с приемлемым качеством, лучше, чем у других участников.
Пространственную структуру РНК можно сравнить с вторичной и третичной структурой белков?
Ну да, там приблизительно та же история. Цепь РНК складывается, образует петли, шпильки, причем в этом процессе большую роль играют попарные взаимодействия нуклеотидов. По сути, самое важное — это суметь определить, какое основание с каким спарено. В принципе, это и для белков важно, если знать, какие аминокислоты с какими взаимодействуют, то задача сильно упрощается.
Для каких РНК характерна пространственная структура?
Это большая часть РНК, которые выполняют регуляторную функцию, рибосомальная РНК сворачивается определенным образом. Даже участки кодирующей мРНК тоже могут принимать какую-то структуру.
Пространственная структура РНК определяется ее нуклеотидной последовательностью?
Да. Там есть нюанс, который в конкурсе не учитывался, но его в принципе сложно учесть, потому что для РНК, особенно некодирующей, свойственно очень много дополнительных модификаций. Но в данном случае, пока этих данных нет, нужно было научиться предсказывать пространственную структуру без учета этих модификаций.
В чем особенность вашего подхода, и как вам удалось добиться, что ваши модели оказались наиболее эффективными?
На самом деле почти все команды в итоге использовали трансформенные нейронные сети, со слоями, основанными на механизме внимания. Но была еще вторая часть решения, до которой тоже часть людей дошла, но у нас в нашей сети, ArmNet, получилось сделать это лучше. Дело в том, что для предсказания вторичной структуры РНК есть специальные программы, они предсказывают вероятности попарных взаимодействий между нуклеотидами. Они обучены на том, в принципе небольшом, количестве структур РНК, которые известны. Но эти программы, по-видимому, все-таки обучены на данных, которые напрямую извлечь в данном конкурсе нельзя, они немножко другие. И мы смогли предсказания этих программ правильно подать в модель как дополнительный источник информации. Другие команды тоже пытались это сделать, у нас получилось просто наиболее удачно. Мы сделали так, чтобы сеть, с одной стороны, учитывала эти данные в своем решении, а с другой стороны — так как эти данные могут быть ошибочными в каких-то предсказаниях, — чтобы сеть имела возможность эти ошибочные предсказания исправлять. Прямо в процессе предсказания. И получилось, что это лучше всего работает.
Сколько времени заняла ваша работа?
Собственно, конкурс длился три месяца, и мы три месяца почти каждый день что-то по нему делали. Прерывались только на то время, когда модель должна была обучиться, в это время у нас был отдых. Конкурс закончился 7 декабря, но мы еще два месяца улучшали полученное решение. Во-первых, потому что нам самим было интересно. Во-вторых, мы общались с авторами конкурса, очень приятные люди, они были готовы к тому, чтобы включать новые модели, то есть всем было интересно сделать решение еще лучше. Так что, получается, в целом, пять месяцев на это ушло. На днях должен выйти препринт статьи, а подают они ее в Nature Methods, скорее всего.
Насколько высоко в итоге опубликуют, зависит и от участников другого конкурса, CASP16, по предсказанию пространственной структуры РНК, потому что ее все-таки можно определять напрямую, просто данных меньше. И тогда мы увидим, помогут ли модели, разработанные в нашем конкурсе, участникам того конкурса.
В конкурсе участвовало более 700 команд, а были ли еще команды из России?
Да, участников из России было достаточно много. Долгое время команды из России составляли топ-3, а к концу конкурса соотношение поменялось, потому что некоторые команды объединялись и появлялись новые. Мы заняли первое место, следом за нами были две команды из Южной Кореи и Болгарии. Но в итоге в топ-10 была как минимум еще одна команда из России, и на более низких местах встречались.
Как ваши модели можно использовать при создании вакцин и других лекарственных препаратов?
Для создания вакцин и лекарств на основе РНК очень важно решить задачу их устойчивости. И здесь полезно уметь предсказывать пространственную структуру, потому что именно она часто определяет, насколько долго эта РНК может существовать в клетке до того, как она так или иначе деградирует. Пока что предсказать устойчивость получается не так хорошо, как хотелось бы. Вот и посмотрим, поможет ли это решение побороть эту проблему.