AlphaGenome предсказывает эффект мутаций сразу на 11 уровнях регуляции

В Nature опубликована статья, посвященная модели глубокого обучения AlphaGenome — она предназначена для выявления молекулярного фенотипа по последовательности ДНК. Разработкой занималась компания DeepMind. Модель, обученная на геномах человека и мыши, способна предсказывать влияние генетических вариантов в 11 модальностях — на уровне изменений сплайсинга, экспрессии гена, перестройки регуляторных взаимодействий. AlphaGenome превзошла существующие аналоги в 25 из 26 тестов или по крайней мере не уступила им в достоверности предсказаний. 

Credit:

123rf.com

Предсказание функций ДНК по ее последовательности и интерпретация роли вариантов остается одной из ключевых задач биологии. Модели глубокого обучения служат мощными инструментами для расшифровки регуляторного генетического кода, однако производительность большинства существующих методов ограничена. 

Разработчики из DeepMind — компании-создателя широко известной AlphaFold, — представили геномную модель, которая по последовательности ДНК предсказывает молекулярный фенотип. Препринт, среди авторов которого нобелевский лауреат Демис Хассабис, вышел в июне 2025 года, а вчера статья о разработке под названием AlphaGenome была опубликована в Nature

AlphaGenome — это модель глубокого обучения, которая прогнозирует функциональное влияние вариантов в 5930 участках генома человека или в 1128 участках генома мыши. Всего модель оценивает 11 категорий возможных фенотипические проявлений, включающих экспрессию, сплайсинг, состояние хроматина. 

Один из основных механизмов, связывающих генетические варианты с заболеваниями — это нарушения сплайсинга. Их можно предсказывать на уровне сайта сплайсинга (то есть отдельных акцепторных или донорных нуклеотидов), частоты использования сплайс-сайта или конкретных интронов. AlphaGenome справлялась с предсказаниями на всех трех уровнях, достоверно прогнозируя роль 6 из 7 категорий вариантов, встречающихся в базе данных ClinVar. Исключением стали глубокие интронные и синонимичные варианты — по ним AlphaGenome не превзошла ранее созданные модели. 

Варианты в некодирующих участках могут также изменять экспрессию генов. Исследователи протестировали способность AlphaGenome прогнозировать такие изменения в рамках различных регуляторных механизмов — локусов количественных признаков экспрессии (eQTL), влияния энхансеров или изменений полиаденилирования.  Они отдельно оценили способность AlphaGenome предсказывать влияние вариантов на состояние хроматина, а именно его доступность, чувствительность к ДНКазам и связывание транскрипционных факторов. 

Кроме того, модель идентифицировала связи между энхансерами и промоторами. Разработчики опирались на данные ENCODE–rE2G — в рамках этого исследования изучались взаимодействия энхансеров с генами-мишенями. Авторы уточняют, что AlphaGenome выявляла в том числе взаимодействия энхансеров с теми промоторами, которые расположены от них на расстоянии более 10 килобаз.

AlphaGenome также предсказывала функциональную роль вариантов в 3′ UTR и была способна предоставлять мультимодальные прогнозы, определяя причинные варианты, изменяющие экспрессию гена. 

Практическое применение исследователи продемонстрировали на примере онкогенных мутаций, затрагивающих ген TAL1. Он кодирует транскрипционный фактор, ассоциированный с острым Т-клеточным лейкозом. AlphaGenome предсказала, что в случае известной онкогенной мутации (chr1:47239296: C>ACG) в CD34+ общих миелоидных предшественниках возрастает уровень активирующих гистоновых меток H3K27ac и H3K4me1. Это согласуется с экспериментальными данными — они выявили образование неоэнхансера в области варианта. Модель также предсказала, что уровни репрессивных гистоновых меток, наоборот, снизятся, а метки активной транскрипции (H3K36me3) — возрастут, что соответствует усилению экспрессии TAL1. Авторы разработки заключают: способность AlphaGenome одновременно оценивать эффекты вариантов по всем модальностям позволила точно отразить механизмы, по которым клинически значимые варианты вблизи онкогена TAL1 способствуют развитию лейкоза.

Таким образом, AlphaGenome не уступает наиболее продвинутым на сегодняшний день моделям в прогнозировании роли вариантов (или даже превосходит их) — такой результат она показала в 25 из 26 различных подходов к оценке в рамках данной работы. Отдельно авторы подчеркивают, что мультимодальность оценки не снижает предсказательную способность AlphaGenome на отдельно взятых уровнях. Они упоминают, что такие модели, как Borzoi, хотя и способны работать с несколькими модальностями одновременно, могут справляться несколько хуже, чем узкоспециализированные модели.

В настоящий момент разработка выложена  в открытый доступ для некоммерческого использования — исследователи надеются, что ее публикация подтолкнет дальнейшие исследования генома.

Источник

Avsec, Ž., et al. Advancing regulatory variant effect prediction with AlphaGenome. // Nature 649, 1206–1218 (2026). DOI: 10.1038/s41586-025-10014-0

Добавить в избранное