Геномная языковая модель предсказывает функции белков
Подобно словам в естественном языке, ген может обладать различными функциями в зависимости от контекста, а многие гены, напротив, могут наделяться близкими функциями вследствие конвергентной эволюции или отдаленной гомологии. Расшифровка связи между геном и его контекстом имеет фундаментальное значения для моделирования биологических систем. Для исследования этой связи перспективно машинное обучение — именно к нему прибегли ученые из США, которые создали геномную языковую модель.
Для обучения больших языковых моделей, таких как GPT-4, применяются огромные массивы разнообразных текстовых данных. Геномная языковая модель обучается на наборах метагеномных данных, с помощью которых она учится понимать функциональную «семантику» и регуляторный «синтаксис» отдельных генов. Авторы, опубликовавшие статью в Nature Communications, обучили геномную языковую модель на миллионах метагеномных скаффолдов. Метагеномы, включенные в обучение, были получены из различных сред, включая почву, океан и кишечник человека.
Исследователи показали, что их геномную языковую модель можно использовать для решения различных задач. Так, она была способна предсказывать функции ферментов, предсказывать опероны, определять таксономическую принадлежность контигов или соотносить паралоги между собой. Ученые считают, что геномные языковые модели — весьма перспективное направление, подчеркивают, что архитектура трансформера показала себя успешной как в обработке естественных языков, так и в их модели. Кроме того, благодаря развитию секвенирования с длинными прочтениями можно ожидать увеличения качества, количества и разнообразия входных данных — и авторы надеются на развитие обсуждаемого направления машинного обучения. Геномные языковые модели, отмечают они, позволят установить связи между молекулярной структурой и функциями на организменном уровне, а следовательно, приблизят нас к моделированию биологических систем и манипулированию ими.