Геномная языковая модель предсказывает функции белков

Подобно словам в естественном языке, ген может обладать различными функциями в зависимости от контекста, а многие гены, напротив, могут наделяться близкими функциями вследствие конвергентной эволюции или отдаленной гомологии. Расшифровка связи между геном и его контекстом имеет фундаментальное значения для моделирования биологических систем. Для исследования этой связи перспективно машинное обучение — именно к нему прибегли ученые из США, которые создали геномную языковую модель.

Для обучения больших языковых моделей, таких как GPT-4, применяются огромные массивы разнообразных текстовых данных. Геномная языковая модель обучается на наборах метагеномных данных, с помощью которых она учится понимать функциональную «семантику» и регуляторный «синтаксис» отдельных генов. Авторы, опубликовавшие статью в Nature Communications, обучили геномную языковую модель на миллионах метагеномных скаффолдов. Метагеномы, включенные в обучение, были получены из различных сред, включая почву, океан и кишечник человека.

Исследователи показали, что их геномную языковую модель можно использовать для решения различных задач. Так, она была способна предсказывать функции ферментов, предсказывать опероны, определять таксономическую принадлежность контигов или соотносить паралоги между собой. Ученые считают, что геномные языковые модели — весьма перспективное направление, подчеркивают, что архитектура трансформера показала себя успешной как в обработке естественных языков, так и в их модели. Кроме того, благодаря развитию секвенирования с длинными прочтениями можно ожидать увеличения качества, количества и разнообразия входных данных — и авторы надеются на развитие обсуждаемого направления машинного обучения. Геномные языковые модели, отмечают они, позволят установить связи между молекулярной структурой и функциями на организменном уровне, а следовательно, приблизят нас к моделированию биологических систем и манипулированию ими.

Добавить в избранное

Вам будет интересно

14.05.2026
90
0

Характеризация кодирующей части генома человека остается одной из главных задач биологии. Количество канонических белоккодирующих генов считалось приблизительно известным до недавнего времени, но за последнее время накопилось множество данных о трансляции неканонических открытых рамок считывания (ncORF). Для их изучения был создан международный консорциум TransCODE, который на прошлой неделе представил алгоритм аннотации «темного протеома» — полипептидов, кодируемых ncORF. Результаты исследования опубликованы в журнале Nature

Для молекул, кодируемых ncORF, ученые ввели термин «пептидеин» (peptidein) — полипептид, синтез которого с открытой рамки считывания подтвержден экспериментально, но данных для того, чтобы классифицировать эту ORF как белоккодирующий ген, недостаточно. Проанализировав около 95,5 тысяч протеомных экспериментов, авторы работы выявили 7 264 ncORF и показали, что около четверти из них кодируют микробелки и пептидеины. Они разработали систему аннотации для этих полипептидов, кодируемых ncORF, и показали, как характеризация пептидеина с помощью функциональной геномики и оценки консервативности позволяет уточнить его классификацию.

В качестве наглядной демонстрации ученые охарактеризовали пептидеин, транслируемый с длинной некодирующей РНК OLMALINC. С помощью CRISPR-скрининга и секвенирования РНК единичных клеток они показали, что этот пептидеин жизненно важен и консервативен — его нокаут в 485 клеточных линиях приводил к их нежизнеспособности в 85% случаев. 

Авторы рассчитывают, что предложенный ими подход позволит систематично охарактеризовать ncORF и кодируемые ими полипептиды, что важно в том числе для медицинской науки. Транслируемые с ncORF молекулы вносят вклад в развитие наследственных заболеваний, онкогенез и формирование раковых антигенов, следовательно, их подробное изучение расширит понимание патогенеза и представление о методах терапии.  

16.03.2026
494
0

UK Biobank содержит медицинские записи 500 тысяч британских добровольцев — это один из самых обширных в мире биобанков, где хранятся геномные последовательности участников вместе с постоянно пополняемой информацией о здоровье и образе жизни. В прошлом месяце правительство расширило доступ UK Biobank к медицинским картам добровольцев. Эти данные используют в исследованиях десятки тысяч ученых из разных стран, результаты представлены в тысячах публикаций. Расследование газеты Guardian выявило десятки случаев утечки медицинской информации из UK Biobank, связанных с работой исследователей.

Научные журналы и спонсоры требуют от исследователей публикации кода, использованного ими для анализа больших наборов данных. При попытке загрузить код на популярную онлайн-платформу GitHub некоторые авторы статей случайно публиковали наборы данных UK Biobank, частично или полностью. Хотя эти данные не содержат имен или адресов, они позволяют получить доступ к медицинской информации о человеке. С июля по декабрь 2025 года биобанк направил 80 юридических уведомлений в адрес GitHub с просьбой удалить такие данные, и это было сделано, однако значительная их часть по-прежнему доступна.

Один из наборов данных, обнаруженных Guardian, содержал датированные больничные диагнозы примерно для 413 тысяч участников, а также их пол, месяц и год рождения. В порядке эксперимента Guardian с согласия одной из участниц проекта провела поиск по месяцу и году ее рождения вместе с информацией о перенесенной операции и получила доступ к диагнозам, поставленным в больнице. Женщина продолжит участвовать в проекте, так как считает его важным, но задается вопросом, не нарушено ли обещание защитить данные добровольцев.

В UK Biobank заявили, что реидентификация человека невозможна без дополнительной информации и по этой причине участникам рекомендуют не размещать на общедоступных сайтах сведения о своем здоровье или генеалогические данные. Представители биобанка также отметили, что продолжат принимать меры для защиты данных участников. Эксперты по вопросам конфиденциальности отмечают, что подход UK Biobank «противоречит реальности»: в наше время невозможно рассчитывать на отсутствие в интернете информации о здоровье человека.

27.06.2025
2138
0

Считается, что у эволюции нет кнопки обратной перемотки — она рассматривается как однонаправленный путь адаптаций. Однако авторы статьи в Nature Communications описали возможный случай «обратной эволюции» у дикорастущих томатов на островах Галапагосского архипелага.

Ученые проанализировали стереохимические особенности стероидных алкалоидов — они играют у растений важную защитную роль — в семействе пасленовых (Solanaceae), к которым относится томат. Этим алкалоидам свойственна стереоизомерия по 25-му атому углерода, и варианты гидроксилаз GAME8 (glycoalkaloid metabolism 8), отвечающие за их синтез, продуцируют S- или R-изомеры. Филогенетический анализ пасленовых выявил две клады, представители одной из которых преимущественно синтезируют 25S изомеры (к этой кладе относится томат), а другой — более эволюционно древние 25R. Один из алкалоидов этой группы — α-томатин — служит для защиты от грибковых инфекций и насекомых-вредителей. Анализ различных популяций томатов показал, что растения на древних территориях вырабатывают преимущественно 25S-изомер α-томатина. Однако у дикорастущих томатов с Галапагосских островов обнаружились мутации в GAME8, которые привели к переходу от синтеза 25S-изомера этого защитного алкалоида обратно к предковым 25R. Ученые предполагают, что древний вариант оказался более надежным средством защиты на вулканических островах, сравнительно недавно заселенных томатами, и это привело к «откату» эволюции фермента.

23.04.2025
1971
0

Группа под руководством геобиологов из Бельгии описала новый вид кабельных бактерий — многоклеточных прокариотических организмов, способных проводить электричество на сантиметровые расстояния.

Клетки кабельных бактерий имеют палочковидную форму и соединяются между собой в нити, покрытые общей внешней мембраной. Они могут переносить электрический заряд между слоями осадочных пород — это основа их метаболизма. Электроны переносятся из более глубоких слоев осадка, где бактериальные клетки осуществляют окисление сульфида, на поверхность, где другие клетки используют кислород или нитрат в качестве конечного акцептора электронов.

В настоящее время кабельные бактерии включают два признанных рода, Candidatus Electrothrix и Candidatus Electronema. Теперь же исследователи выделили из приливно-отливной эстуарной зоны в заливе Якина (Орегон, США) новый вид. Он морфологически отличается от описанных ранее кабельных бактерий, а его метаболические пути и гены — смесь таковых Ca. Electrothrix и Ca. Electronema. Отличительной чертой вида оказались широкие поверхностные гребни, которые тянутся по всей длине каждого бактериального филамента и содержат проводящие волокна. Эти волокна включают никель-содержащий кофактор NiBiD, описанный исследователями впервые. Филогенетически новый вид кабельных бактерий оказался ближе к первому из родов, и авторы предлагают назвать его Ca. Electrothrix yaqonensis sp. nov., в честь племени якина — коренных американцев, чьи исконные земли охватывают залив Якина.

04.04.2025
1486
0

Микроорганизмы доминируют в биосфере, но отследить их раннюю эволюцию проблематично из-за отсутствия окаменелостей. Однако древние отложения и горные породы могут указать на особенности метаболизма бактерий в тот или иной период. Авторы статьи в Science проанализировали их, чтобы составить карту эволюции аэробных микроорганизмов.

Кислородную катастрофу, которая случилась около 2,43–2,33 млрд лет назад из-за возникновения оксигенного фотосинтеза, исследователи называют ключевым поворотным моментом, преобразовавшим биосферу. Они выстроили связь между распространением аэробного метаболизма и временем накопления кислорода в атмосфере, а затем использовали эту связь для более точной датировки филогенетического древа бактерий, построенного на 1007 видах.

Биоинформатический анализ выявил 84 события перехода от анаэробного метаболизма к аэробному. Большинство произошло после кислородной катастрофы и было обусловлено горизонтальным переносом генов, связанных с дыханием и толерантностью к кислороду. Однако по крайней мере три перехода предшествовали этому событию. По полученным данным, самые первые аэробные бактерии появились в архее, на 900 миллионов лет раньше кислородной катастрофы. После нее аэробные линии эволюционно расходились намного быстрее, чем анаэробные, что подчеркивает влияние уровня атмосферного кислорода на эволюцию бактерий. Исследователи заключают: если аэробное дыхание возникло до повсеместной оксигенации атмосферы, оно могло способствовать эволюции оксигенного фотосинтеза у цианобактерий.

Мы используем файлы cookie для улучшения работы сайта. Узнать больше.

Настройки файлов cookie

Мы используем файлы cookie для улучшения работы сайта, анализа трафика и показа персонализированной рекламы. Вы можете изменить настройки в любой момент.

Категории файлов cookie:

Необходимые

Эти cookie обеспечивают базовую функциональность сайта — вход в аккаунт, безопасность, оформление заказов. Отключение невозможно.

Функциональные

Функциональные cookie используются для обеспечения работы отдельных функций сайта, а также для запоминания ряда пользовательских предпочтений (например, выбранный язык, товары в корзине), с целью улучшения качества предоставляемого сервиса.

Отключение этого типа файлов cookie может привести к тому, что некоторые сервисы или функции сайта станут недоступны или будут работать некорректно. В результате, вам может потребоваться повторно вводить определённую информацию или настраивать предпочтения при каждом посещении сайта вручную.

Аналитические

Аналитические файлы cookie, включая сторонние аналитические cookie, помогают нам понять, как вы взаимодействуете с нашим сайтом. Эти файлы не собирают информацию, позволяющую установить вашу личность. Все данные обрабатываются в агрегированной и анонимной форме.

Рекламные

Рекламные cookie, включая сторонние, используются для создания пользовательских профилей и показа рекламы, соответствующей вашим интересам и предпочтениям при просмотре сайтов.

Эти cookie позволяют персонализировать рекламные сообщения, которые вы видите, делая их более релевантными. Они также могут использоваться для ограничения количества показов одной и той же рекламы и для оценки эффективности рекламных кампаний.