Синтез речи, считанной с мозга человека, попытались синхронизировать с активностью нейронов

Вернуть речь человеку, утратившему способность полноценно разговаривать из-за травмы или инсульта, — непростая задача. В 2023 году коллектив нейробиологов разработал речевой протез, позволяющий считывать речь напрямую с мозга пациента, однако это считывание было пошаговым и давало задержки в звучании речи. Чтобы избавиться от них, исследователи дополнили свою разработку — новый алгоритм декодирования и синтеза речи позволял участнице клинического испытания произносить слова и фразы в режиме, близком к реальному времени. Точность у такого метода оказалась ниже, чем у текстовой расшифровки, однако он наглядно демонстрирует саму возможность. Усовершенствование и повышение точности должны стать следующим шагом в этом направлении.

Credit:
123rf.com

Задержки речи более чем на несколько секунд могут нарушить естественный ход разговора, затрудняя общение для людей с параличом и усугубляя у них чувство изоляции. Предыдущие работы по созданию нейропротезов, которые позволили бы пациенту восстановить утраченную речь, добились декодирования, однако не смогли обеспечить синхронность. Предложенная система полагалась на считывание активности мозга в определенном временном окне и последующей дешифровке, поэтому синтезированная речь звучала с задержкой. Свежая статья того же коллектива, опубликованная в Nature Neuroscience, посвящена решению этой проблемы.

Нейропротез для синтеза речи содержал 253-канальный массив кортикальных микроэлектродов, имплантируемых на речевую сенсомоторную кору и часть височной доли. Его установили 47-летней участнице клинического испытания, которая из-за инсульта утратила способность к полноценной речи. Сначала исследователи провели обучение алгоритма дешифровки — они считывали нейронную активность, пока испытуемая пыталась произнести отдельные предложения. Высокочастотные гамма-волны (70–150 Гц) и низкочастотные сигналы (0,3–17 Гц) транслировали в модель, которая обрабатывала их с шагом 80 мс. Для создания декодера использовали рекуррентную нейронную сеть, которая использует только имеющийся контекст и не нуждается в будущем. Дешифрованную по активности мозга речь преобразовывали в текст, опираясь в озвучке на записи голоса пациентки, сделанные до инсульта.

Проверяли систему на двух тестовых наборах — один содержал 50 фраз, второй 1024 слова. Из слов второго набора составили 100 предложений, которые участница должна была произносить. Фразы из первого набора использовали целиком (по три попытки на каждую фразу). Скорость расшифровки составила в среднем 47,5 слов в минуту для «большого» набора (1024 слова) и 90,9 слов в минуту — для набора из 50 фраз. Задержка между детектируемой активностью нейронов, соответствующей попытке произнести фразу, и самим синтезом речи, по словам авторов, была минимальной. Для набора из 1024 слов она составила 1,01 секунд (медианное значение) в случае самой дешифровки, результаты которой выводились в текстовом виде, и 1,12 секунд для озвучивания. В случае набора из 50 фраз эти значения составили 2,53 и 2,14 секунд, соответственно.

Однако речь требуется передать не только быстро, но и точно. Чтобы оценить качество расшифровки, авторы оценивали, как часто в ней встречались ошибочные фонемы, слова или буквы. Медианные показатели достигли 10,8% ошибочных фонем для набора из 50 фраз и 45,3% для набора из 1024 слов. Доля ошибочных слов в этих случаях составляла 12,3% и 58,8%, а отдельных неправильно распознанных букв — 11,2% и 44,7%. При переводе декодированной речи в текст без озвучивания частота ошибок была несколько ниже.

В идеале речевой нейропротез должен работать непрерывно, используя унифицированную модель, определяющую, говорит ли сейчас пациент. Пока что авторы продемонстрировали синтез речи на уровне отдельных попыток. Следующей их целью стало длительное (в течение минут и часов) декодирование речи в автономном режиме. Для этого пришлось изменить схему передачи считанной активности мозга — вместо фиксированного периода, который начинался за 500 мс до самой попытки, авторы разбивали получаемые данные на неперекрывающиеся фрагменты по 80 мс. Из ста фрагментов синтезированной речи только три оказались ложноположительными. Медианная частота ошибочных фонем составила 49,4%; слов — 65,0%; букв — 49,3%. Авторы утверждают, что по результатам статистической обработке все эти показатели отличаются от случайных.

Для полноценной применимости речевого нейропротеза он должен быть способен декодировать речь не только для одного участника. Авторы дополнительно протестировали разработанный способ дешифровки и синтеза речи — помимо уже упомянутой участницы они включили в исследование одного человека с параличом, которому были установлены кортикальные электроды, и одного здорового добровольца. В этих случаях тестирование проводили с открытым словарем, то есть без ограничений на его содержание. Обобщения на несколько участников действительно удалось добиться — частоты ошибок в словах, буквах или фонемах были сопоставимы для новых двух испытуемых и первой участницы.

Несмотря на проведенную демонстрацию, основные тесты проводились на одном человеке — авторы признают, что это является ограничением исследование. Кроме того, синтез речи в режиме, приближенном к реальному времени, показал себя менее точным, чем декодирование в текстовом виде.

И все же исследователи заключают, что это важный шаг — по крайней мере, он служит демонстрацией возможности такого подхода. Основными направлениями будущих работ они называют усовершенствование такой системы, чтобы в будущем создать речевой нейропротез, способный вернуть утраченную речь и подходящий для постоянного пользования в быту.

Источник

Littlejohn, K.T., et al. A streaming brain-to-voice neuroprosthesis to restore naturalistic communication. // Nat Neurosci (2025). DOI: 10.1038/s41593-025-01905-6

Добавить в избранное

Мы используем файлы cookie для улучшения работы сайта. Узнать больше.

Настройки файлов cookie

Мы используем файлы cookie для улучшения работы сайта, анализа трафика и показа персонализированной рекламы. Вы можете изменить настройки в любой момент.

Категории файлов cookie:

Необходимые

Эти cookie обеспечивают базовую функциональность сайта — вход в аккаунт, безопасность, оформление заказов. Отключение невозможно.

Функциональные

Функциональные cookie используются для обеспечения работы отдельных функций сайта, а также для запоминания ряда пользовательских предпочтений (например, выбранный язык, товары в корзине), с целью улучшения качества предоставляемого сервиса.

Отключение этого типа файлов cookie может привести к тому, что некоторые сервисы или функции сайта станут недоступны или будут работать некорректно. В результате, вам может потребоваться повторно вводить определённую информацию или настраивать предпочтения при каждом посещении сайта вручную.

Аналитические

Аналитические файлы cookie, включая сторонние аналитические cookie, помогают нам понять, как вы взаимодействуете с нашим сайтом. Эти файлы не собирают информацию, позволяющую установить вашу личность. Все данные обрабатываются в агрегированной и анонимной форме.

Рекламные

Рекламные cookie, включая сторонние, используются для создания пользовательских профилей и показа рекламы, соответствующей вашим интересам и предпочтениям при просмотре сайтов.

Эти cookie позволяют персонализировать рекламные сообщения, которые вы видите, делая их более релевантными. Они также могут использоваться для ограничения количества показов одной и той же рекламы и для оценки эффективности рекламных кампаний.