Синтез речи, считанной с мозга человека, попытались синхронизировать с активностью нейронов
Вернуть речь человеку, утратившему способность полноценно разговаривать из-за травмы или инсульта, — непростая задача. В 2023 году коллектив нейробиологов разработал речевой протез, позволяющий считывать речь напрямую с мозга пациента, однако это считывание было пошаговым и давало задержки в звучании речи. Чтобы избавиться от них, исследователи дополнили свою разработку — новый алгоритм декодирования и синтеза речи позволял участнице клинического испытания произносить слова и фразы в режиме, близком к реальному времени. Точность у такого метода оказалась ниже, чем у текстовой расшифровки, однако он наглядно демонстрирует саму возможность. Усовершенствование и повышение точности должны стать следующим шагом в этом направлении.
Задержки речи более чем на несколько секунд могут нарушить естественный ход разговора, затрудняя общение для людей с параличом и усугубляя у них чувство изоляции. Предыдущие работы по созданию нейропротезов, которые позволили бы пациенту восстановить утраченную речь, добились декодирования, однако не смогли обеспечить синхронность. Предложенная система полагалась на считывание активности мозга в определенном временном окне и последующей дешифровке, поэтому синтезированная речь звучала с задержкой. Свежая статья того же коллектива, опубликованная в Nature Neuroscience, посвящена решению этой проблемы.
Нейропротез для синтеза речи содержал 253-канальный массив кортикальных микроэлектродов, имплантируемых на речевую сенсомоторную кору и часть височной доли. Его установили 47-летней участнице клинического испытания, которая из-за инсульта утратила способность к полноценной речи. Сначала исследователи провели обучение алгоритма дешифровки — они считывали нейронную активность, пока испытуемая пыталась произнести отдельные предложения. Высокочастотные гамма-волны (70–150 Гц) и низкочастотные сигналы (0,3–17 Гц) транслировали в модель, которая обрабатывала их с шагом 80 мс. Для создания декодера использовали рекуррентную нейронную сеть, которая использует только имеющийся контекст и не нуждается в будущем. Дешифрованную по активности мозга речь преобразовывали в текст, опираясь в озвучке на записи голоса пациентки, сделанные до инсульта.
Проверяли систему на двух тестовых наборах — один содержал 50 фраз, второй 1024 слова. Из слов второго набора составили 100 предложений, которые участница должна была произносить. Фразы из первого набора использовали целиком (по три попытки на каждую фразу). Скорость расшифровки составила в среднем 47,5 слов в минуту для «большого» набора (1024 слова) и 90,9 слов в минуту — для набора из 50 фраз. Задержка между детектируемой активностью нейронов, соответствующей попытке произнести фразу, и самим синтезом речи, по словам авторов, была минимальной. Для набора из 1024 слов она составила 1,01 секунд (медианное значение) в случае самой дешифровки, результаты которой выводились в текстовом виде, и 1,12 секунд для озвучивания. В случае набора из 50 фраз эти значения составили 2,53 и 2,14 секунд, соответственно.
Однако речь требуется передать не только быстро, но и точно. Чтобы оценить качество расшифровки, авторы оценивали, как часто в ней встречались ошибочные фонемы, слова или буквы. Медианные показатели достигли 10,8% ошибочных фонем для набора из 50 фраз и 45,3% для набора из 1024 слов. Доля ошибочных слов в этих случаях составляла 12,3% и 58,8%, а отдельных неправильно распознанных букв — 11,2% и 44,7%. При переводе декодированной речи в текст без озвучивания частота ошибок была несколько ниже.
В идеале речевой нейропротез должен работать непрерывно, используя унифицированную модель, определяющую, говорит ли сейчас пациент. Пока что авторы продемонстрировали синтез речи на уровне отдельных попыток. Следующей их целью стало длительное (в течение минут и часов) декодирование речи в автономном режиме. Для этого пришлось изменить схему передачи считанной активности мозга — вместо фиксированного периода, который начинался за 500 мс до самой попытки, авторы разбивали получаемые данные на неперекрывающиеся фрагменты по 80 мс. Из ста фрагментов синтезированной речи только три оказались ложноположительными. Медианная частота ошибочных фонем составила 49,4%; слов — 65,0%; букв — 49,3%. Авторы утверждают, что по результатам статистической обработке все эти показатели отличаются от случайных.
Для полноценной применимости речевого нейропротеза он должен быть способен декодировать речь не только для одного участника. Авторы дополнительно протестировали разработанный способ дешифровки и синтеза речи — помимо уже упомянутой участницы они включили в исследование одного человека с параличом, которому были установлены кортикальные электроды, и одного здорового добровольца. В этих случаях тестирование проводили с открытым словарем, то есть без ограничений на его содержание. Обобщения на несколько участников действительно удалось добиться — частоты ошибок в словах, буквах или фонемах были сопоставимы для новых двух испытуемых и первой участницы.
Несмотря на проведенную демонстрацию, основные тесты проводились на одном человеке — авторы признают, что это является ограничением исследование. Кроме того, синтез речи в режиме, приближенном к реальному времени, показал себя менее точным, чем декодирование в текстовом виде.
И все же исследователи заключают, что это важный шаг — по крайней мере, он служит демонстрацией возможности такого подхода. Основными направлениями будущих работ они называют усовершенствование такой системы, чтобы в будущем создать речевой нейропротез, способный вернуть утраченную речь и подходящий для постоянного пользования в быту.
Источник
Littlejohn, K.T., et al. A streaming brain-to-voice neuroprosthesis to restore naturalistic communication. // Nat Neurosci (2025). DOI: 10.1038/s41593-025-01905-6
Меню
Все темы
0




