Альфа и Розетта: начало и конец великой задачи биологии
Две из трех Нобелевских премий за естественные науки в этом году отмечают достижения в области искусственного интеллекта. Лауреатами Нобелевской премии по химии стали Демис Хассабис и Джон Джампер «за предсказание белковых структур» и Дэвид Бейкер — «за компьютерный дизайн белков». Их разработки комплементарны друг другу — они позволяют как моделировать структуру белка по заданной последовательности аминокислот, так и генерировать эту последовательность, исходя из желаемой функции.
«Жизнь не могла бы существовать без белков. То, что теперь мы можем предсказывать белковые структуры и самостоятельно проектировать белки, несет человечеству огромную пользу» — такие слова опубликованы сегодня на сайте Нобелевского комитета по химии. Над проблемой предсказания трехмерной структуры белка непосредственно по аминокислотной последовательности работы ведутся уже полвека, и она считается настолько важной, что ее называли «величайшей пятидесятилетней задачей биологии». Именно за предсказание 3D-структуры белка с помощью искусственного интеллекта Демис Хассабис и Джон Джампер получили Нобелевскую премию по химии. Точнее, половину — вторая часть награды досталась Дэвиду Бейкеру за компьютерный дизайн белков.
Предсказанию белковой последовательности по первичной структуре посвящен конкурс CASP — Critical Assessment of Protein Structure Prediction, — который проходит каждые два года. Ученые со всего мира получают доступ к аминокислотной последовательности белка, и перед ними ставится задача определить его трехмерную структуру. В 2018 году Демис Хассабис, сооснователь британской компании DeepMind, добился впечатляющих результатов при помощи ИИ-модели AlphaFold: точность предсказания составила 60% против 40% у прочих участников. Создатели этой программы обучили ее на структурах из Protein Data Bank, по которым она создавала карты расстояний между аминокислотными остатками. На основании этой карты и генерируется предполагаемая структура белковой молекулы (посвященная разработке статья опубликована в журнале Nature).
Хотя 60% — впечатляющая точность (в том числе по словам организаторов конкурса CASP), ее по-прежнему оставалось недостаточно, и команда победителей под руководством Хассабиса продолжила разработку. Позднее к ним присоединился Джон Джампер, который затем возглавил работу над новой версией — AlphaFold 2. Принцип работы этой модели сильно изменили, на смену сверточной нейронной сети пришла архитектура трансформера, а в качестве выходных данных модель стала предоставлять непосредственно координаты атомов. Все эти серьезные доработки обеспечили точность предсказания структуры уже на уровне 90% и победу в очередном CASP в 2020 году. Предсказывать трехмерную структуру белка стало возможно с точностью до 1Å — уровень, сопоставимый с рентгеноструктурным анализом.
Вторая часть Нобелевской премии по химии, как уже говорилось, была присуждена Дэвиду Бейкеру, известному за другую значимую ИИ-модель — Rosetta. Путь Бейкера в моделирование белковых структур также начинался с конкурса CASP, на котором в конце 1990-х годов его команда показала впечатляющие результаты. Однако успех привел их к иной идее — вместо того, чтобы давать ИИ последовательность аминокислот и получать структуру белка, разработчики Rosetta решили задавать структуру с желаемыми свойствами, ставя перед ИИ задачу предложить оптимальную последовательность белка. Созданный полностью «с нуля» белок Top7, о котором ученые рассказали на страницах Science в 2003 году, состоял из 93 аминокислотных остатков и имел глобулярную структуру, которая по результатам рентгеноструктурного анализа практически полностью соответствовала заданной изначально.
Дальнейший дизайн функциональных белковых молекул de novo развивался постепенно, и первые работы Бейкера и соавторов сообщали о сравнительно невысокой каталитической активности искусственно созданных ферментов. Впоследствии ученые смогли создать с помощью ИИ белки, нацеленные на связывание конкретных лигандов — уже первые разработки показали аффинность к микромолярном диапазоне, а также возможность усилить связывание путем лабораторной эволюции. Другим примером послужили белковые наноматериалы — самособирающиеся вирусоподобные частицы также можно проектировать с помощью искусственного интеллекта. Еще одна значимая область — создание белковых переключателей и сенсоров.
Credit:
Terezia Kovalova/The Royal Swedish Academy of Sciences
Бейкер продолжал разработки и в области предсказания белковых структур — в 2021 году в Science вышла статья, посвященная RoseTTAFold. Эта ИИ-модель не только «догнала» AlphaFold по точности, но и обеспечила предсказание белок-белковых взаимодействий, основанное исключительно на аминокислотной последовательности. Дальнейшее развитие этой разработки привело к созданию RoseTTAFold Diffusion — предложенный в 2023 году, этот алгоритм позволяет создавать белковые молекулы с функциями, которые ранее не встречались в природе.
Развитие AlphaFold тоже не остановилось на второй версии этой программы — в мае 2024 года Google DeepMind представила AlphaFold 3, существенно расширив функционал модели. Помимо исходной задачи — предсказания трехмерной структуры — AlphaFold 3 умеет оценивать вклад посттрансляционных модификаций в конформацию белковой молекулы, а также предсказывать взаимодействия белков с другими белками и нуклеиновыми кислотами.
Дополняющие друг друга разработки Бейкера, Хассабиса и Джампера позволят еще больше углубить понимание взаимосвязи «последовательность—структура—функция», объясняющей работу белков в организме, а также — в том числе с опорой на это понимание — разрабатывать новые белковые инструменты для множества задач. Потенциал этих открытий и отметил Нобелевский комитет по химии, присудив трем исследователям премию в этом году.