Нобелевская неделя 2024. Демис Хассабис: «Благодаря AlphaFold мы входим в эру цифровой биологии»

«Я всегда считал, что о биологии можно думать как о системе обработки информации, пускай и феноменально сложной и развитой. Мне кажется, что принципы биологии тяжело свести к нескольким математическим уравнениям. Математика была потрясающим инструментом для описания физических явлений, но ИИ может быть идеальным языком для описания биологии». — Лекция лауреата Нобелевской премии по химии Демиса Хассабиса. Стокгольм, 08.12.2024.

Credit:
Скриншот канала Нобелевского комитета

Свою Нобелевскую лекцию Демис Хассабис начал с детских воспоминаний. С четырех лет он играл в шахматы, участвуя в различных чемпионатах. «Когда серьезно играешь в шахматы в таком юном возрасте, это становится опытом, формирующим личность и карьеру. Меня это заставило задуматься о самом процессе мышления. Я был поражен и заинтригован тем, как наш мозг придумывает идеи, планы и стратегии и как можно это улучшить», — рассказал он.

Шахматы, комбинаторика и искусственный интеллект

В ходе подготовки к чемпионатам Хассабис впервые столкнулся с компьютерами, которые умели играть в шахматы. Их использовали для тренировок, чтобы улучшить навыки игры в шахматы у детей. Хассабис же вспоминает, как был впечатлен тем, что кто-то сумел запрограммировать «безжизненный кусок пластика» так, чтобы он научился хорошо играть в шахматы. Вдохновившись этим, в 11 лет Хассабис написал свою первую программу на основе искусственного интеллекта, используя компьютер Amiga 500. Так он научил компьютер играть в Отелло — вариацию на тему настольной игры Реверси, в которой игроки по очереди расставляют черно-белые фишки на игральной доске 8×8 клеток, стремясь «запереть» как можно больше фишек соперника. Обученный Хассабисом компьютер смог одолеть брата Хассабиса (которому тогда было всего 5 лет).

В 2010 году Хассабис основал DeepMind как исследовательскую лабораторию, миссия которой — создание сильного искусственного интеллекта. Для его разработки он решил использовать игры, считая их отличным опытным полигоном для ИИ, так как с помощью игр легко сгенерировать много данных, можно заставить системы играть друг против друга, а еще можно легко выделить показатели, которые нужно улучшить в работе ИИ, и понять, происходит ли прогресс.

Хотя многие исследователи сосредотачивали свое внимание на создании компьютеров, которые безупречно играют в шахматы, Хассабис считает самой сложной игрой го. В этой игре существует 10170 возможных позиций, что больше количества атомов во Вселенной. В связи с этим никакая программа не может «грубой силой» придумать решение для игры в го.

Первым успехом Хассабис называет то, что в 2016 году написанный DeepMind алгоритм AlphaGo победил со счетом 4:1 Ли Седоля — корейского го-профессионала с 17 международными титулами. Примечательно, что алгоритм не просто выиграл игру, но и придумал свою креативную стратегию на 37 ходу второй партии — «удар в плечо». Секрет успеха AlphaGo в том, что алгоритм проходил через процесс самообучения, играя против самого себя и обучаясь на своих же ошибках.

AlphaGo стал доказательством правильности концепции: с помощью нейросетей можно создавать новые стратегии и направлять поиск решений, а не рассматривать все возможные вероятности. Стало ясно, что подобные алгоритмы можно использовать для решения мировых проблем и научных задач.

От настольных игр к проблемам биологии

Для каких же задач подходит ИИ? Для тех, в которых присутствует огромное пространство для комбинаторного поиска; в которых есть четкая цель — метрика, по которой можно в дальнейшем оптимизировать алгоритм; и в которых генерируется много данных, на которых можно обучить модель или для которых можно разработать точный и эффективный симулятор.

В реальной жизни есть множество таких задач, и одна из них — предсказание 3D-структуры белка по аминокислотной последовательности. На решение этой задачи у научного сообщества ушло 50 лет. Это связано с тем, что для экспериментального определения структуры белка требуются годы скрупулезной работы. Кроме того, согласно парадоксу Левинталя, белок может принимать около 10300 конформаций, и простой перебор их всех займет больше времени, чем существование Вселенной. Но каким-то образом белки проходят процесс фолдинга спонтанно и всего за несколько миллисекунд. Значит, существуют какие-то энергетические законы, которые направляют процесс фолдинга белка.

Команда Хассабиса занялась решением этой задачи в том числе потому, что в общем доступе были данные, на которых могла учиться разработанная модель. В базе данных Protein Data Bank хранятся структуры около 170 тысяч белков, которые были определены экспериментально. Кроме того, с 1994 года проводится состязание CASP, в котором ученые сравнивают эффективность разных методов для предсказания белковых структур. Для предсказания ученым предлагают последовательности, белковая структура которых была недавно определена экспериментально, но еще нигде не опубликована, благодаря чему соревнование происходит «вслепую». В результате CASP стал целевым ориентиром при разработке алгоритма для предсказания белкового фолдинга командой Хассабиса. Исследователи также установили ограничение: предсказанная структура должна была совпадать с настоящей с атомной точностью, что допускало ошибку менее чем в 1 Å. Только в таком случае модель может быть полезна для экспериментальных биологов.

До появления AlphaFold в сфере в течение десятилетия практически не было прогресса. От других алгоритмов AlphaFold, представленный на CASP13 в 2018 году, отличался тем, что он основан на машинном обучении. В 2020 году, выпустив AlphaFold2 на CASP14, команда DeepMind добилась атомного разрешения — поэтому организаторы CASP объявили, что задача предсказания белковой структуры была успешно решена.

«Нет никакого волшебного средства, которое может решить эту задачу. В состав AlphaFold входит десяток разных инновационных технологий, поэтому он представляет собой комплексную — гибридную систему. Один из ключевых шагов состоял в учете эволюционных и физических ограничений в архитектуре системы помимо компонентов, необходимых для ее обучения. Ключом к этому стала мультидисциплинарная команда, состоящая из биологов, химиков, экспертов в машинном обучении и инженеров», — рассказал Демис Хассабис.

AlphaFold: алгоритм и его применение

AlphaFold получает на вход первичную аминокислотную последовательность, а выдает 3D-структуру белка. Вместе с тем он содержит стадию, где предсказание белковой структуры совершенствуется, причем с каждой итерацией его точность улучшается.

«Как только мы разработали эту систему, мы захотели максимально использовать ее возможности», — заметил Хассабис. С помощью AlphaFold команда DeepMind предсказала структуры 200 миллионов белков — практически всех известных на настоящий момент. Они предоставили открытый доступ к AlphaFold и разработали бесплатную базу данных белковых структур, предсказанных с помощью этого инструмента. DeepMind также проконсультировались более чем с 30 экспертами в области биоэтики и биобезопасности, чтобы убедиться, что польза от AlphaFold выше, чем связанные с его использованием риски. На текущий момент AlphaFold воспользовалось уже более 2 миллионов ученых из 190 стран, упомянув алгоритм более чем в 30 тысячах публикаций. Теперь AlphaFold стал одним из стандартных инструментов структурных биологов.

Хассабис перечислил несколько примеров исследований, в которых AlphaFold применялся для решения сложных проблем. В их числе — борьба с загрязнением пластиком с помощью дизайна разлагающих его ферментов, поиск лекарств для редких заболеваний, разработка новых антибиотиков, создание белков для доставки препаратов, обнаружение фундаментальных механизмов (например, лежащих в основе размножения).

В этом году была выпущена новая версия алгоритма — AlphaFold3. AlphaFold2 мог предоставить только статичную картинку, но в биологии все процессы происходят динамично. «AlphaFold3 — наш первый шаг к моделированию всех взаимодействий и динамики. Он может моделировать взаимодействия не только между белками, но и между белками и ДНК/РНК, между белками и лигандами», — рассказал Хассабис. 

Новая эра цифровой биологии

Заключительную часть лекции Демис Хассабис посвятил возможным последствиям использования ИИ в науке. Используемые сейчас модели заточены на поиск оптимального решения в огромном пространстве комбинаторных вероятностей. Для этого алгоритмы создают модели какой-то среды, используя доступные данные или симмуляции, и на основе этой модели направляют свой поиск для достижения определенной цели. В общем виде таких задач много: тот же принцип работы алгоритма, играющего в го, может быть положен в основу разработки лекарств.

«Мы, вероятно, входим в новую эру того, что мне нравится называть цифровой биологией. Я всегда считал, что на самом фундаментальном уровне о биологии можно думать как о системе обработки информации, пускай и феноменально сложной и развитой. Мне кажется, что в такой сложной системе принципы биологии тяжело свести к нескольким математическим уравнениям. Математика была потрясающим инструментом для описания физических явлений, но в том же смысле ИИ может быть идеальным языком для описания биологии», — поделился Демис Хассабис.

Он выразил надежду на то, что AlphaFold поспособствует началу эры цифровой биологии. Возможно, в будущем благодаря таким алгоритмам процесс разработки лекарств можно будет сократить до нескольких лет, месяцев или даже недель. Отдельная мечта Хассабиса — создание виртуальной клетки, процессы в которой можно предсказать.

«С момента создания AlphaGo я стал задумываться о том, каковы ограничения классических вычислительных систем. Сейчас в сфере ведутся споры о квантовых компьютерах и классических компьютерах. Мне кажется, классические машины Тьюринга — то, на чем основаны современные компьютеры, — способны на гораздо большее, чем мы думали раньше. Как можно этого добиться? Подготовив огромные объемы предварительных вычислений, на основе которых можно разработать хорошую модель среды или задачи, решение которой вы пытаетесь найти. Затем с помощью этой модели можно эффективно исследовать пространство решений за полиномиальное время, то есть за разумное время. Я предлагаю свою гипотезу: любой паттерн, который можно сгенерировать или найти в природе, может также быть эффективно обнаружен и смоделирован с помощью классического алгоритма обучения», — рассказал Хассабис. Если окажется, что классические системы могут моделировать некоторые квантовые, то это поспособствует значительному развитию науки, а именно теории информации и теории сложности вычислений.

Хассабис подвел итог, рассказав о том, как еще DeepMind использует ИИ для развития науки: исследователи работают над разработкой алгоритмов для анализа медицинских снимков и генетических мутаций, для прогнозирования погоды, для создания новых материалов и т. д. По мнению Хассабиса, ИИ имеет огромный потенциал для решения проблем всего человечества, но его нужно использовать с огромной ответственностью и так, чтобы польза от него была для всех. Сильный искусственный интеллект — его разработку Хассабис сравнил с открытием огня или электричества — потенциально станет инструментом, который поможет нам понять Вселенную и найти наше место в ней.

Добавить в избранное