RoseTTAFold Diffusion — новый этап в развитии белкового дизайна

Дизайн новых белков продолжает совершенствоваться, и недавно в Nature вышла публикация, посвященная модели RoseTTAFold Diffusion. Разработанный подход комбинирует в себе несколько методов машинного обучения и позволяет создавать разнообразные белки с заданными функциями, в том числе структуры, которые никогда не встречались в природных белках.

Credit:
123rf.com

Дизайн новых белков с использованием метода глубокого обучения активно развивался последнее время. Несмотря на достигнутый прогресс, пока не создано общего подхода к проектированию белков de novo, который позволял бы решать широкий спектр задач по созданию нужных конструкций. Международный коллектив ученых предложил подход RoseTTAFold Diffusion, потенциально способный расширить существующие возможности дизайна белковых молекул с нуля.

Диффузионные модели успешно применяются для генерации изображений и текстов, но успешность в моделировании белков с их помощью пока ограничена. По-видимому, это связано со сложностью геометрии белковой молекулы и взяимосвязи между последовательностью и структурой.

Вероятностные диффузионные модели шумоподавления (denoising diffusion probabilistic models, DDPM) — класс методов машинного обучения, позволяющих генерировать фотореалистичные изображения по текстовому запросу. Они обладают рядом свойств, хорошо подходящих для дизайна белков. Так, в недавних работах их применяли для конструирования белковых мономеров на основе небольших белковых «мотивов» или информации о вторичной структуре и укладке белка, хотя и с ограниченным успехом.

Авторы новой публикации в Nature объединили преимущества DDPM с уже существующими подходами к предсказанию белковой структуры. Разработка получила название RoseTTAFold Diffusion (RFdiffusion). Авторы опирались на алгоритм RoseTTAFold, использующий координату α-атома углерода и угол N-Cα-C для каждого аминокислотного остатка, и дополнили его методами DDPM.

Созданный таким образом алгоритм оказался более эффективным и производительным, чем предыдущие методы. Например, генерация структуры белка, состоящего из 100 аминокислотных остатков, занимает у RFdissusion около 11 секунд, тогда как RoseTTAFold требуется на это порядка 8,5 минут на тех же вычислительных мощностях (авторы использовали графический процессор NVIDIA RTX A4000).

Предложенный подход может найти применение в различных задачах, связанных с de novo конструированием белков. Ученые протестировали его эффективность в дизайне мономерных белков и мультисубъединичных комплексов, а также в предсказании таких структур, как сайты связывания — последнее может использоваться в терапевтических подходах или в промышленной биотехнологии.

Одним из экспериментов стала проверка предсказания белок-белковых взаимодействий. Для этого авторы сконструировали при помощи RFdiffusion молекулы, способны связывать заданную белковую мишень. В качестве целевых белков были выбраны гемагглютинин вируса гриппа А, интерлейкиновый рецептор IL-7Rɑ, рецептор инсулина, PD-L1 и тропомиозин-рецепторная тирозинкиназа TrkA. К каждой из мишеней ученые сгенерировали потенциально связывающие ее молекулы, после чего отобрали по 95 наиболее перспективных вариантов для проверки in vitro.

Скрининг показал, что среди предложенных ИИ структур для всех 5 мишеней нашлись варианты, связывающие ее с достаточно высокой аффинностью. Что интересно, многие из них сильно отличались от природных лигандов целевых белков, но при этом специфично взаимодействовали с ними.

Общий коэффициент успешности (доля случаев, когда кандидатные молекулы связывали мишень с аффинностью 50% или выше от максимального уровня положительного контроля), составил около 19%. Это примерно на два порядка выше, чем результат, который для тех же мишеней ранее демонстрировал алгоритм RoseTTAFold. При этом число протестированных кандидатов, которые были классифицированы как достаточно перспективные, было меньше ста для каждой мишени, тогда как ранее существующие подходы подразумевали скрининг тысячи и более вариантов.

Точность работы модели исследователи также подтвердили при помощи криоэлектронной микроскопии. Они проанализировали структуру созданной ими белковой молекулы, наиболее эффективно связывающей гемагглютинин гриппа А — полученная структура была почти идентична смоделированной in silico.

Предложенный подход, по словам самих же создателей RFdiffusion, существенно улучшает доступные на данный момент методы дизайна белковых молекул. Так, он позволяет генерировать разнообразные белковые структуры, содержащие до 600 аминокислот, с высокой эффективностью. Скорость и точность работы RoseTTAFold Diffusion заметно превышает эти показатели для созданных ранее инструментов. Кроме того, такой метод подходит для широкого спектра задач, а дальнейшее совершенствование алгоритма позволит в будущем генерировать еще более сложные структуры.



Источник

Watson, J.L. et al. De novo design of protein structure and function with RFdiffusion // Nature (2023). DOI: 10.1038/s41586-023-06415-8

Добавить в избранное