Как найти в геномах бактерий все системы защиты от фагов?

Механизмы бактериального иммунитета, обеспечивающие защиту от бактериофагов, — перспективный инструмент для биотехнологии, и их продолжают активно изучать. В Science вышло сразу две статьи о выявлении антифаговых систем в геномах бактерий с помощью машинного обучения. Одна посвящена разработке модели DefensePredictor, которая использует последовательность гена и четырех его «соседей» по геному в качестве контекста, чтобы предсказать, участвует ли этот белок в защите от фагов. Авторы другой статьи создали сразу три системы машинного обучения, каждая из которых предсказала кандидатные защитные белки. Эксперименты с заражением бактериальных клеток подтвердили антифаговую активность предсказанных белков. Обе группы ученых подчеркнули, что иммунитет бактерий гораздо разнообразнее, чем предполагалось. 

Credit:

123rf.com

Иммунные системы бактерий, которые служат для защиты от фагов, крайне разнообразны — на сегодняшний день охарактеризовано более 250 таких систем с различными механизмами действия. Некоторые из них уже легли в основу биотехнологий, например, CRISPR нашла применение в редактировании генома. Однако полный масштаб разнообразия защитных механизмов оставался неизвестным. Две группы ученых независимо друг от друга охарактеризовали бактериальные системы защиты от фагов, используя модели машинного обучения. Результаты обоих исследований опубликованы в журнале Science

Три исследователя из Массачусетского технологического института разработали модель машинного обучения DefensePredictor, которая по последовательности самого гена и его контексту предсказывает, участвует ли кодируемый этим геном белок в иммунной защите. Они отобрали около 17 тысяч прокариотических геномов и маркировали в них известные гены защиты от фагов, а также гены, достоверно не связанные с защитой. Помимо самого гена, модель учитывала четыре ближайших к нему в геноме — по два с каждой стороны. 

После обучения модели авторы использовали ее для поиска белков, обеспечивающих антифаговый иммунитет, в геномах 69 различных штаммов Escherichia coli. DefensePredictor определила 624 различных белка как связанные с защитой, причем более ста из них не имели выраженной гомологии с известными антифаговыми белками. Почти половина идентифицированных белков кодировались за пределами плазмид, профагов и «защитных островков», в которые часто оказываются сгруппированы гены иммунной защиты в геномах прокариот.

Чтобы экспериментально подтвердить результаты, ученые экспрессировали 94 предсказанных системы в изначально восприимчивом к фагам штамме E. coli, а затем пытались заражать его. Оказалось, что 42 из этих систем защищали бактерий по крайней мере от одного из 24 видов фагов, эффективность заражения снижалась в 10 и более раз. Авторы аннотировали белковые домены в этих 42 защитных системах и обнаружили, что 15 из них ранее не были описаны как защитные — они имели другую подтвержденную функцию либо их роль не была известна вовсе.   

Параллельно с этим группа ученых из Франции разработала три взаимодополняющие модели глубокого обучения для поиска систем антифаговой защиты в бактериальных геномах. Известные системы защиты от фагов обладают общими характерными признаками на уровне геномной организации — например, кластеризация в «островки защиты» или локализация в участках, ассоциированных с профагами. По этой информации можно предсказывать защитную активность белков, однако такой подход может охватить не все представленные в бактериальном геноме защитные системы. Исследователи адаптировали архитектуру ALBERT (A Lite BERT bidirectional encoder representations from transformers) — модель, первоначально разработанную для естественного языка, — к бактериальным геномам. Каждое семейство белков рассматривается как «слово», а совокупность находящихся рядом — как «предложение». Для работы с «грамматикой» бактериальных геномов модель обучили на 6,7 миллионах геномных фрагментов, содержащих как антифаговые системы, так и белки, лишенные этой активности.

Модель, получившая обозначение ALBERTDF, предсказала потенциальную антифаговую активность в 1930 семействах белков. Только для 33% из этого списка защитная активность была предсказана «классическим» методом. Среди оставшихся ученые отобрали 10 систем и экспрессировали их в почвенной бактерии Streptomyces albus, которую затем заражали одним из 12 бактериофагов. Из 10 систем две оказались токсичными для самих бактерий, еще две не обладали антифаговой активностью. Оставшиеся шесть снижали количество бляшкообразующих единиц более чем в 100 раз как минимум для одного из фагов. Руководствуясь тем, что Streptomyces — преимущественно почвенные бактерии, авторы назвали эти системы в честь различных божеств земли и плодородия: Ceres (Церера, древнеримская богиня), Geb (Геб, древнеегипетское божество земли), Veles (Велес, славянское божество), Prithvi (Притхви, олицетворение Земли в ведийской мифологии), Ukko (Укко, бог погоды и урожая в карело-финской мифологии) и Oshun (Ошун, богиня любви и плодородия у йоруба).

Однако возможности ALBERTDF ограничены размером словаря. Чтобы преодолеть это ограничение, авторы прибегли к белковой языковой модели ESM2. Предсказанные с ее помощью кандидатные антифаговые системы протестировали на клетках E. coli, отобрав 12 вариантов — из них шесть обладали защитным действием против хотя бы одного фага. 

Затем исследователи решили объединить эти два подхода, один из которых основан на контексте, а второй — на гомологии. Они разработали модель контрастивного обучения GeneCLR и применили ее для предсказания репертуара антифаговых белков в пангеномном масштабе. В более чем 32 тысячах бактериальных геномов модель обнаружила около 1,5% генов защиты от бактериофагов. При этом более 85% семейств, к которым относились эти белки, ранее не были ассоциированы с иммунитетом бактерий. 

Авторы обеих статей приходят к выводу: системы бактериального иммунитета намного обширнее и разнообразнее, чем считалось ранее. Для того, чтобы поддержать дальнейшие исследования в этой области, французские ученые опубликовали интерактивный атлас антифагового иммунитета, а разработчики DefensePredictor выложили свою модель в открытый доступ.

 

Как украсть хвост у бактериофага?

Бактерии используют одноцепочечные ДНК как ловушки для фаговых SSB белков

Источник

Peter C. DeWeirdt et al., DefensePredictor: A machine learning model to discover prokaryotic immune systems. // Science 392, eadv7924 (2026). DOI: 10.1126/science.adv7924

Ernest Mordret et al., Protein and genomic language models uncover the unexplored diversity of bacterial immunity. // Science 392, eadv8275 (2026). DOI: 10.1126/science.adv8275

Добавить в избранное