05.12.2025

Машинное обучение выявило белки, склонные к фазовому разделению в клетке

Подготовила

Вероника Куркина

Ученые из Детской исследовательской больницы Св. Иуды в США разработали модель машинного обучения для предсказания способности неупорядоченных регионов белков (IDR) формировать биомолекулярные конденсаты в клетках. Обучив алгоритм на экспериментальных данных о химерных онкобелках, авторы работы проанализировали человеческий протеом и содержащиеся в нем IDR. Оказалось, что около 12% IDR склонны к формированию конденсатов и разделению фаз, причем содержащие их белки преимущественно задействованы в процессинге РНК и локализуются в ядерных тельцах.

Credit:

123rf.com

Подготовила

Вероника Куркина

Биомолекулярные конденсаты, или немембранные органеллы (MLO), играют ключевую роль в компартментализации клетки и обособлении процессов в ней. Их сборка происходит за счет фазового разделения, которое обеспечивается слабыми мультивалентными взаимодействиями. Важную роль в нем играют внутренне неупорядоченные регионы (IDR) белков, не имеющие стабильной трехмерной структуры. Однако предсказать, будет ли конкретный IDR формировать конденсат в живой клетке, до сих пор оставалось затруднительно, так как существующие алгоритмы часто опирались на данные, полученные в различных условиях, не всегда биологически релевантных. Для решения этой задачи ученые из Детской исследовательской больницы Св. Иуды в США разработали модель машинного обучения, которая учитывает комплексные особенности внутриклеточной среды.

Авторы работы использовали набор из 215 уникальных IDR, выявленных в химерных онкопротеинах человека. Их экспрессировали в клетках HEK293T в виде сшивок с флуоресцентным белком mEGFP. На основе данных микроскопии авторы ввели классификацию IDR. Те из них, которые формировали видимые конденсаты (гранулы) в 24% и более проанализированных клеток, получили обозначение puncta(+), а те, которые оставались диффузными или формировали агрегаты менее чем в 24% клеток, были классифицированы как puncta(–).

Из 215 протестированных IDR 19% оказались puncta(+), 64% — puncta(–), еще 7% были отнесены к IDR с ядерной локализацией, а оставшиеся 10% не были классифицированы. Сравнительный анализ аминокислотных последовательностей выявил ключевые физико-химические различия между этими группами. Исследователи проанализировали 600 различных характеристик и выделили 25 наиболее значимых признаков, влияющих на фазовое поведение. Так, puncta(+) регионы оказались обогащены ароматическими аминокислотами, проявляли склонность к образованию бета-листов и катушек (coil), а также характеризовались специфическим распределением заряда.

На основе этих ученые создали модель машинного обучения IDR-Puncta ML, которая показала высокую точность (ROC AUC 0,98) при перекрестной проверке. Применив модель к совокупности IDR человека (авторы обозначили ее как IDRом по аналогии с протеомом), авторы обнаружили, что способность к независимой конденсации не является общим свойством всех неупорядоченных регионов. В набор включили 12 899 IDR длиной от 60 аминокислот в протеоме человека, и лишь 1 572 из них (около 12%) были предсказаны как puncta(+).

Функциональный анализ показал, что многие белки, содержащие puncta(+) IDR, связаны с биологией РНК. Наиболее представленными категориями оказались регуляция, процессинг и сплайсинг РНК. Кроме того, такие белки преимущественно локализуются в ядерных немембранных органеллах, таких как ядрышки, ядерные спеклы и параспеклы. Это подтверждает гипотезу о том, что IDR-опосредованная конденсация играет ключевую роль в организации ядерных процессов.

Авторы выявили потенциальный источник ошибок модели, связанный с длиной последовательности. Они заметили существенное смещение: puncta(+) IDR в среднем длиннее, чем puncta(–). Хотя длина сама по себе не использовалась как прямой признак при обучении, она коррелирует с другими параметрами, такими как взаимодействие белка с молекулами воды и количество заряженных остатков. Это может приводить к ложноположительным результатам для очень длинных IDR — они содержат больше сайтов для взаимодействия, что модель интерпретирует как высокую склонность к конденсации.

Принципиальная новизна работы заключается в создании предсказательной модели, обученной на экспериментально подтвержденных данных в живых клетках, а не на результатах in vitro или литературных сведениях, которые часто содержат небиологический фоновый шум. Созданная модель IDR-Puncta ML позволяет не просто предсказывать фазовое разделение, но и связывать специфические физико-химические характеристики последовательностей с их способностью формировать функциональные компартменты. Это открывает новые возможности для изучения патологий, связанных с нарушением биогенеза органелл, включая рак и нейродегенеративные заболевания.

Химерный белок ZFTA–RELA запускает опухолевый процесс через образование биомолекулярных конденсатов

Источник

Snigdha Maiti et al., Proteome-wide computational analyses reveal links between protein condensate formation and RNA biology // Sci. Adv. 11, eady1420. Published online 3 December 2025. DOI: 10.1126/sciadv.ady1420

Добавить в избранное

Вам будет интересно

08.07.2026

138

Препараты, содержащие ароматические гетероциклы, лучше проникают в туберкулезную микобактерию

03.07.2026

158

«Конструктор» из бактериальных ферментов для синтеза противораковых препаратов

02.07.2026

156

Малярийный плазмодий проникает в эритроцит с помощью «парусного судна»

23.06.2026

163

Микророботов для доставки противоракового препарата сделали из диатомовых водорослей и магнетита

22.06.2026

188

Почему коровы и птицы болеют высокопатогенным птичьим гриппом по-разному

Настройки файлов cookie

Мы используем файлы cookie для улучшения работы сайта, анализа трафика и показа персонализированной рекламы. Вы можете изменить настройки в любой момент.

СВЯЗАТЬСЯ С РЕДАКЦИЕЙ

Оставить заявку

Получить медиакит

Машинное обучение выявило белки, склонные к фазовому разделению в клетке

Источник

Вам будет интересно

Настройки файлов cookie

Категории файлов cookie: