Искусственный интеллект применили для создания новых редакторов генома

Искусственный интеллект находит все более широкое применение в самых разных направлениях, и теперь исследователи использовали его для генерации редакторов генома. Они создали Атлас CRISPR-Cas и обучили на нем языковую модель, с помощью которой сгенерировали новые Cas-подобные белки. Самый перспективный из полученных белков ученые назвали OpenCRISPR-1 — когда его испытали на культурах клеток, то оказалось, что эффективность редактирования сопоставима с SpCas9, одной из наиболее часто применяемых нуклеаз. А вот внецелевой активности OpenCRISPR-1 проявлял на 95% меньше.

Credit:
123rf.com

Редактирование генома с помощью системы CRISPR-Cas — перспективная технология, однако она не лишена недостатков, таких как нецелевая активность и недостаточная стабильность в эукариотических клетках. Ученые из США предложили разрабатывать CRISPR-системы с помощью искусственного интеллекта — они создали и обучили генеративную модель, с помощью которой получили новые Cas9-подобные белки и соответствующие гидовые РНК.

Авторы работы создали самый обширный на сегодняшний день набор данных о CRISPR-оперонах — Атлас CRISPR-Cas. Он включал сами последовательности CRISPR, белки Cas, протоспейсерные смежные мотивы (PAM) и трансактивирующие CRISPR-РНК (tracrRNA). Всего ученые проанализировали 26,2 терабаз микробных геномов и метагеномов и обнаружили 1 246 163 CRISPR-оперона. Атлас содержал в среднем в 2,7 раза больше белковых кластеров, чем UniProt, а для отдельных семейств это расширение было еще более значительным — в 4,1 раза для Cas9, в 6,7 раз — для Cas12a и в 7,1 — для Cas13.

Для генерации новых Cas-белков ученые воспользовались языковой моделью ProGen2, с помощью которой сгенерировали четыре миллиона последовательностей. Половину из них конструировали непосредственно на основе модели, для второй половины генерацию направляли в сторону определенного семейства — для этого модели предлагали вводить до 50 остатков с N- или C-конца природного белка. Полученные последовательности затем выравнивали по Атласу CRISPR-Cas с помощью BLAST.

Генерация заняла три дня и задействовала 16 графических процессоров. Когда сгенерированные последовательности сопоставили с уже имеющимися в Атласе CRISPR-Cas, оказалось, что они расширили разнообразие природных белков в 4,8 раза. Для отдельных семейств с небольшим количеством белков расширение было еще масштабнее — в 8,4 раза для Cas13 и в 6,2 раза для Cas12a. Авторы также оценили разнообразие полученных последовательностей. Медианное сходство с ближайшим природным белком обычно лежало в пределах 40–60%. Несмотря на такое отклонение, конформация сгенерированных белков — ее предсказали с помощью AlphaFold2 — была близка к конформации природных белков из соответствующих семейств. Исходя из этого, исследователи предположили, что сгенерированные последовательности могут быть функциональными.

Затем ученые сосредоточились на Cas9 — наиболее широко используемом для редактирования генома Cas-белке. Для создания новых Cas9-подобных белков они настроили языковую модель с опорой на 238 917 последовательностей Cas9 из Атласа CRISPR-Cas. Такой подход позволил получать «правдоподобные» последовательности искусственных Cas9 со вдвое более высокой частотой, чем исходная модель (54,2% против 27,6%). Всего ученые сгенерировали миллион последовательностей Cas9, отфильтровали их по сходству с природными белками и предполагаемой функциональности и построили филогенетическое дерево методом максимального правдоподобия. Оказалось, что 94,1% общего филогенетического разнообразия составили сгенерированные белки — они увеличили разнообразие в 10,3 раза по сравнению с имевшимися в Атласе CRISPR-Cas.

Помимо эффекторного белка, CRISPR-Cas9 требует гидовой РНК, необходимой для распознавания и расщепления мишени. Она состоит из спейсера (целевой последовательности РНК), CRISPR-РНК повторов (crRNA) и tracrRNA. Последние два компонента обычно берут из природных систем, а спейсер программируют таким образом, чтобы нацелить его на нужный фрагмент ДНК. Авторы работы смоделировали crRNA и tracrRNA для сгенерированных белков.

Для первоначальной проверки модели ученые сгенерировали гидовые РНК для Cas-белков, уже использовавшихся в качестве эффекторов для редактирования генома. Из Атласа CRISPR-Cas они отобрали 112 212 эффекторных белков типа II, для которых возможно было идентифицировать, ориентировать и выровнять соответствующие последовательности crRNA и tracrRNA — эти данные затем использовали для обучения модели, которая генерирует crRNA и tracrRNA для заданного белка. Сгенерированные гидовые РНК были похожи на природные, кроме того, пары crRNA:tracrRNA формировали канонические дуплексы; также модель точно предсказывала совместимость гидовых РНК с различными ортологами Cas9. Авторы предположили, что ее можно применять для создания функциональных гидовых РНК для новых Cas9-подобных белков.

Наконец, исследователи охарактеризовали сгенерированные белки экспериментально. Они настроили языковую модель на белки Cas9, используя N- или C-концевой фрагмент SpCas9. По N-концу было сгенерировано в общей сложности 200 тысяч Cas9-подобных последовательностей (для характеризации из них отобрали 127 белков), по C-концу — еще 150 тысяч (из них отобрали 82 белка). Функциональный анализ выбранных белков проводили на культурах клеток HEK293T.

Самый перспективный из сгенерированных белков, PF-CAS-182, продемонстрировал сопоставимый с SpCas9 уровень целевой активности (медианная частота инделов 55,7% против 48,3%). Уровень нецелевого редактирования при этом снизился на 95% (0,32% против 6,1%). Сам белок значительно отличался как от SpCas9 — идентичность последовательностей составила 71,7%, — так и от остальных природных белков, содержавшихся в Атласе CRISPR-Cas. Авторы работы обозначили полученный белок как OpenCRISPR-1, его последовательность выложена в открытый доступ.

На основе OpenCRISPR-1 ученые также сконструировали редактор оснований, внеся мутацию в последовательность этого белка, и протестировали его эффективность на клетках линии HEK293T. В трех протестированных целевых сайтах частота редактирования A>G составила 35-60%, что сопоставимо с редактором оснований на основе SpCas9, при этом инделов система не образовывала.

Таким образом, применение ИИ для генерации белковых последовательностей позволило расширить существующее разнообразие белковых кластеров семейств CRISPR-Cas в 4,8 раза. Созданный с помощью такого моделирования OpenCRISPR-1 продемонстрировал эффективность редактирования, сопоставимую с прототипом — SpCas9, — и при этом намного меньшую внецелевую активность. Авторы работы рассчитывают, что с помощью языковых моделей можно будет разрабатывать более широкое разнообразие нуклеаз в тандеме с гидовыми РНК, и тем самым повышать эффективность и точность редактирования генома.


Источник

Jeffrey A. Ruffolo, et al. Design of highly functional genome editors by modeling the universe of CRISPR-Cas sequences. // bioRxiv, 2024. DOI: 10.1101/2024.04.22.590591

Добавить в избранное