Как считать речь напрямую с мозга?
У людей с параличом, затрагивающим моторику речи, сильно ограничена возможность общения. Вернуть им эту возможность могло бы декодирование речи по электрической активности мозга — непростая задача, к решению которой недавно приблизились сразу два коллектива исследователей из США.
Координатор клинических исследований UCSF Макс Догерти подключает к системе протезирования речи регистрирующие электроды, установленные участнице исследования, проводимого под руководством доктора Эдварда Чанга.
Credit:
Noah Berger
Декодирование речи по электрической активности мозга — многообещающий подход к реабилитации, который мог бы улучшить жизнь пациентов, чья речевая функция оказалась нарушена из-за паралича. Несмотря на активно ведущиеся разработки, задача расшифровки полноценной речи остается трудной. Недавно в Nature были опубликованы две статьи, посвященные различным подходам к ее решению.
Один из популярных вариантов подразумевает инвазивные методы — считывание электрической активности при помощи имплантированных в мозг электродов — и требует краниотомии. Именно к нему прибегла группа под руководством ученых из Калифорнийского университета (Сан-Франциско, Беркли). Исследователи установили 253 регистрирующих электрода в область сенсомоторной коры пациентки, перенесшей краниотомию, и декодировали ее речь с помощью такой электрокортикографии высокой плотности и методов глубокого обучения.
Сначала авторы работы обучили модель: для этого они предложили испытуемой наборы слов и предложений, которые она должна была пытаться произнести по условному сигналу. Из-за нарушения работы мышц она не могла произнести их вслух, однако электрическая активность моторного центра речи сохранялась — именно с нее и предстояло расшифровать речь при помощи модели глубокого обучения. Всего ученые составили три набора: из 50 или 529 фраз или 1024 отдельных слов, комбинируемых в различные предложения.
Чтобы проверить, насколько эффективно предложенный метод позволяет декодировать речь, исследователи воспользовались отдельной выборкой предложений, которые не использовались в обучении. Пациентка пробовала произнести случайно выбранные фразы, а их звучание авторы работы восстанавливали с помощью обученной ранее модели и оценивали частоту ошибок. Они анализировали неверно декодированные фонемы (phone error rate, PER), буквы (character error rate, CER) и слова (word error rate, WER). Сама модель содержала достаточно большой словарь, чтобы внести поправку на ошибочную расшифровку — из вероятных вариантов декодирования она отбирала только те слова, которые имелись в ее словаре.
Медианное значение PER оказалось 18,5%, неверно расшифрованных букв было 19,5%, а слов — 25,5%. В отсутствие заданного словаря точность расшифровки снижалась. Скорость декодирования речи при таком подходе составила 78,3 слов в минуту.
Авторы исследования учли, что для полноценного общения человеку требуются не только слова как таковые, но и сопровождающие их интонации и мимика. Для этого они обучили свою модель еще и на электрической активности, возникающей в мозге при тех или иных мимических (орофациальных) движениях.
Обучение происходило аналогичным образом: испытуемой предлагали попытаться воспроизвести то или иное выражение лица, считывали соответствующую активность мозга и обучали нейронную сеть на этих данных. Добившись успешной расшифровки, ученые перешли к воспроизведению речи и мимики. Они создали анимированное изображение, которое в режиме реального времени отражало требуемую мимику испытуемой, а также воспользовались синтезом речи, чтобы озвучить расшифрованные по активности мозга фразы.
Группа исследователей из Стэнфордского университета провела аналогичную работу, испытуемой в которой стала пациентка с боковым амиотрофическим склерозом. Если предыдущий коллектив основал свой подход на высокой плотности расположения электродов, то авторы этой работы отдали предпочтение точности и высокому разрешению. Чтобы декодировать электрическую активность на уровне отдельных нейронов, ученые имплантировали в мозг испытуемой четыре небольших группы микроэлектродов — две в область вентральной премоторной коры и две в зону Брока, отвечающую за генерацию речи.
Исследователи обучили рекуррентную нейронную сеть на электрической активности, считываемой с мозга пациентки во время попыток произносить заданные предложения вслух. Они, как и авторы уже упомянутого исследования, воспользовались для обучения заранее составленным корпусом предложений, причем эту работу отличает объем заданного словаря: он состоял из 125 000 слов, тогда как ученые из Калифорнийского университета включили в свою выборку около 40 000.
Декодирование речи при помощи нейросети оказалось успешным: частота ошибок считывания фонем составила 19,7%, а слов — 23,8%, что сопоставимо с результатами рассмотренного выше исследования. Это первая работа по декодированию речи, в которой добились успешной расшифровки на таком большом словарном корпусе. Кроме того, их подход требовал установки электродов на малой площади мозга (3,2 x 3,2 мм).
Обе работы стали большим шагом к быстрому и эффективному декодированию человеческой речи. Пока что они служат доказательством и демонстрацией самой возможности, и до появления коммерчески доступных устройств, которые могли бы использоваться в повседневной жизни, предстоит еще много работы. Тем не менее, ученые надеются, что в перспективе их разработки смогут вернуть возможность общения тем людям, которых паралич лишил привычной речевой функции.
Глубокая стимуляция мозжечка восстановила подвижность рук после инсульта
Источники
Metzger, S.L., et al. A high-performance neuroprosthesis for speech decoding and avatar control // Nature (2023). DOI: 10.1038/s41586-023-06443-4
Willett, F.R., et al. A high-performance speech neuroprosthesis // Nature (2023). DOI: 10.1038/s41586-023-06377-x