Машинное обучение выявило белки, склонные к фазовому разделению в клетке
Ученые из Детской исследовательской больницы Св. Иуды в США разработали модель машинного обучения для предсказания способности неупорядоченных регионов белков (IDR) формировать биомолекулярные конденсаты в клетках. Обучив алгоритм на экспериментальных данных о химерных онкобелках, авторы работы проанализировали человеческий протеом и содержащиеся в нем IDR. Оказалось, что около 12% IDR склонны к формированию конденсатов и разделению фаз, причем содержащие их белки преимущественно задействованы в процессинге РНК и локализуются в ядерных тельцах.
123rf.com
Биомолекулярные конденсаты, или немембранные органеллы (MLO), играют ключевую роль в компартментализации клетки и обособлении процессов в ней. Их сборка происходит за счет фазового разделения, которое обеспечивается слабыми мультивалентными взаимодействиями. Важную роль в нем играют внутренне неупорядоченные регионы (IDR) белков, не имеющие стабильной трехмерной структуры. Однако предсказать, будет ли конкретный IDR формировать конденсат в живой клетке, до сих пор оставалось затруднительно, так как существующие алгоритмы часто опирались на данные, полученные в различных условиях, не всегда биологически релевантных. Для решения этой задачи ученые из Детской исследовательской больницы Св. Иуды в США разработали модель машинного обучения, которая учитывает комплексные особенности внутриклеточной среды.
Авторы работы использовали набор из 215 уникальных IDR, выявленных в химерных онкопротеинах человека. Их экспрессировали в клетках HEK293T в виде сшивок с флуоресцентным белком mEGFP. На основе данных микроскопии авторы ввели классификацию IDR. Те из них, которые формировали видимые конденсаты (гранулы) в 24% и более проанализированных клеток, получили обозначение puncta(+), а те, которые оставались диффузными или формировали агрегаты менее чем в 24% клеток, были классифицированы как puncta(–).
Из 215 протестированных IDR 19% оказались puncta(+), 64% — puncta(–), еще 7% были отнесены к IDR с ядерной локализацией, а оставшиеся 10% не были классифицированы. Сравнительный анализ аминокислотных последовательностей выявил ключевые физико-химические различия между этими группами. Исследователи проанализировали 600 различных характеристик и выделили 25 наиболее значимых признаков, влияющих на фазовое поведение. Так, puncta(+) регионы оказались обогащены ароматическими аминокислотами, проявляли склонность к образованию бета-листов и катушек (coil), а также характеризовались специфическим распределением заряда.
На основе этих ученые создали модель машинного обучения IDR-Puncta ML, которая показала высокую точность (ROC AUC 0,98) при перекрестной проверке. Применив модель к совокупности IDR человека (авторы обозначили ее как IDRом по аналогии с протеомом), авторы обнаружили, что способность к независимой конденсации не является общим свойством всех неупорядоченных регионов. В набор включили 12 899 IDR длиной от 60 аминокислот в протеоме человека, и лишь 1 572 из них (около 12%) были предсказаны как puncta(+).
Функциональный анализ показал, что многие белки, содержащие puncta(+) IDR, связаны с биологией РНК. Наиболее представленными категориями оказались регуляция, процессинг и сплайсинг РНК. Кроме того, такие белки преимущественно локализуются в ядерных немембранных органеллах, таких как ядрышки, ядерные спеклы и параспеклы. Это подтверждает гипотезу о том, что IDR-опосредованная конденсация играет ключевую роль в организации ядерных процессов.
Авторы выявили потенциальный источник ошибок модели, связанный с длиной последовательности. Они заметили существенное смещение: puncta(+) IDR в среднем длиннее, чем puncta(–). Хотя длина сама по себе не использовалась как прямой признак при обучении, она коррелирует с другими параметрами, такими как взаимодействие белка с молекулами воды и количество заряженных остатков. Это может приводить к ложноположительным результатам для очень длинных IDR — они содержат больше сайтов для взаимодействия, что модель интерпретирует как высокую склонность к конденсации.
Принципиальная новизна работы заключается в создании предсказательной модели, обученной на экспериментально подтвержденных данных в живых клетках, а не на результатах in vitro или литературных сведениях, которые часто содержат небиологический фоновый шум. Созданная модель IDR-Puncta ML позволяет не просто предсказывать фазовое разделение, но и связывать специфические физико-химические характеристики последовательностей с их способностью формировать функциональные компартменты. Это открывает новые возможности для изучения патологий, связанных с нарушением биогенеза органелл, включая рак и нейродегенеративные заболевания.
Химерный белок ZFTA–RELA запускает опухолевый процесс через образование биомолекулярных конденсатов
Источник
Snigdha Maiti et al., Proteome-wide computational analyses reveal links between protein condensate formation and RNA biology // Sci. Adv. 11, eady1420. Published online 3 December 2025. DOI: 10.1126/sciadv.ady1420
Меню
Все темы
0





