Evoлюция моделирования генома: генерация последовательностей и предсказание значимости мутаций с помощью ИИ
Языковые модели нашли широкое применение в работе с геномными данными, однако они не лишены недостатков — они теряют в точности при обработке последовательности ДНК с однонуклеотидным разрешением, а на объемных последовательностях становятся слишком ресурсозатратны. Авторы статьи в Science отошли от типичной архитектуры и предложили Evo — базовую геномную модель для работы с последовательностями разных масштабов, от отдельных участков до полных геномов. С ее помощью можно анализировать влияние точечных мутаций на функцию продукта гена и генерировать новые геномные последовательности.
Darryl Leja, National Human Genome Research Institute, NIH | CC BY-NC 2.0
Эволюционное разнообразие последовательностей генома отражает адаптацию и отбор на уровне биологических функций. Накопление полногеномных данных позволяет систематически анализировать связь последовательности с функцией. Инструмент для такого анализа представили на страницах Science — коллектив из Стэнфордского университета разработал базовую модель (разновидность генеративных моделей) с большим окном контекста, которая позволяет предсказывать функции тех или иных последовательностей ДНК, РНК и белков, а также оценивать влияние мутаций на фенотип.
Вдохновившись недавним успехом больших языковых моделей, многие ученые пытались применять их для работы с биологическими последовательностями. Однако моделирование ДНК как языка ограничено архитектурой трансформера — стандартной техникой для обучения языковых моделей. Такая архитектура требует больших вычислительных затрат, и, как правило, не справляется с задачей при разрешении в один нуклеотид. В качестве альтернативы исследователи предложили Evo — базовую модель (foundation model) с семью миллиардами параметров, которую обучили генерировать последовательности ДНК в масштабе всего генома. В основе модели лежит модифицированная StripedHyena — гибридная архитектура, которая сочетает слои трансформера с операторами Hyena, сокращающими вычислительное время.
Для обучения модели авторы собрали набор данных, содержащий более 80 тысяч геномов бактерий и архей, а также миллионы предсказанных фаговых последовательностей и плазмиды. Суммарный объем составил 300 миллиардов нуклеотидов.
Применимость модели исследователи проверяли на биологически значимых задачах. Языковые модели, обученные на больших корпусах белковых или нуклеотидных последовательностей, могут предсказывать влияние мутаций на функции белка. Evo, которая обучалась на белок-кодирующих последовательностях, протестировали на эту же способность. При работе с прокариотическими белками производительность Evo превзошла все другие протестированные модели, включая обученную только на кодирующих последовательностях со словарем кодонов.
Evo также способна предсказать функциональную роль некодирующих РНК (в набор данных входили тРНК, рибосомальные РНК и рибозимы). В качестве истинной оценки использовали экспериментально подтвержденные данные. Evo снова обогнала другие протестированные языковые модели, в том числе явно обученные на некодирующих РНК. Особенно высокую предсказательную способность она продемонстрировала на данных исследования по измерению влияния мутаций 5S рРНК на скорость роста кишечной палочки. Успешным оказалось также предсказание регуляторных последовательностей и экспрессии белков.
Ученые предположили, что с помощью Evo можно генерировать функциональные комплексы из нескольких молекул. Они провели тонкую настройку модели на наборе данных, содержащих локусы CRISPR-Cas. Evo сгенерировала около двух миллионов последовательностей. Отфильтровав их на наличие локусов Cas9, авторы протестировали 11 вариантов с помощью анализа транскрипции-трансляции in vitro и последующего введения ДНК-мишени. Одна из сгенерированных последовательностей проявила высокую активность, сопоставимую с природной SpCas9 — ее назвали EvoCas9-1. Аналогичным образом Evo продемонстрировала способность генерировать последовательности транспозонов.
Руководствуясь тем, что однонуклеотидные замены могут быть летальными, исследователи решили проверить, будет ли Evo чувствительна к точечным мутациям в важных генах. Они вставили преждевременные стоп-кодоны в начало каждой кодирующей последовательности генома, который затем подавали на вход модели. Проверка на 58 геномах (56 бактериальных и два фаговых) показала, что Evo способна оценивать геномный контекст — с помощью модели можно было предсказать, является ген жизненно важным или нет.
В ходе исследования также оценили генеративные возможности Evo — по словам авторов, им «было интересно проверить качество генерации на протяженных последовательностях без дополнительной настройки». Evo протестировали на 16 последовательностях длиной около 1 ммиллиона нуклеотидов, что более чем в семь раз превышает контекстное окно модели в 131 килобазу (для сравнения, минимальные бактериальные геномы имеют длину около 580 килобаз). По ним модель сгенерировала бактериальные геномы. Их характеризация показала, что они были похожи на природные по ряду признаков, например, плотности кодирования и паттернам организации. Однако некоторые характеристики нельзя было назвать естественными. Например, в сгенерированных последовательностях недоставало многих высококонсервативных маркеров и было крайне мало генов рибосомальной РНК (всего три штуки). Однако авторы отмечают, что качество генерации можно улучшить с помощью алгоритмов, которые появились для доработки выдачи других генеративных моделей (например, языковых).
Evo — модель, способная предсказывать ключевые особенности последовательности ДНК и генерировать их вплоть до целых геномов, — может найти применение в разработке терапевтических средств, а также обогатить фундаментальные биологические знания. К примеру, оценка вклада той или иной мутации в функцию белка в перспективе позволила бы сократить число вариантов неопределенного клинического значения. Кроме того, при дальнейшем усовершенствовании она может лечь в основу алгоритма метагеномного поиска, который будет работать с геномными данными на семантическом уровне, а не требовать экстракции ДНК из существующих организмов.
Источник
Nguen, E. et al. Sequence modeling and design from molecular to genome scale with Evo. // Science (2024). DOI: 10.1126/science.ado9336