Инженеры из Колумбийского университета создали систему, способную переводить мысли в понятную, узнаваемую речь. Контролируя чью-то мозговую деятельность, технология способна облекать ее в слова. Этот метод способен привести к новым способам взаимодействия компьютера с мозгом и помочь людям, которые не могут говорить — например, больным амиотрофическим латеральным склерозом или пережившим инсульт. О разработке ученые рассказали в журнале Scientific Reports.
«Наши голоса помогают нам связываться с друзьями, семьей и окружающим миром, поэтому потеря голоса из-за травмы или болезни так разрушительна, — говорит Нима Месгарани, ведущий автор исследования. — С текущими результатами у нас есть потенциальный способ вернуть эту возможность. Мы показали, что мысли людей можно расшифровать и сделать понятными слушателю».
Как показали многолетние исследования, когда люди говорят или даже представляют, как говорят, в их мозге возникают определенные шаблоны активности. Иные, но также узнаваемые шаблоны появляются, когда люди слушают или представляют, как слушают. Наблюдая за этими шаблонами активности, многие ученые предполагали, что их можно перевести в устную речь.
Однако на практике это оказалось непросто. Ранние попытки доктора Месгарани расшифровать сигналы мозга сводились к простым компьютерным моделям, которые анализировали спектрограммы, являвшиеся визуальным представлением звуковых частот. Однако это не дало ничего, похожего на понятную речь.
Тогда команда Месгарани использовала вокодер — компьютерный алгоритм, способный синтезировать речь.
«Это та же технология, которую использует «умная» колонка Amazon Echo и голосовой помощник от Apple Siri для устных ответов н наши вопросы», — поясняет Месгарани. Сами ученые называют свою разработку реконструкцией слухового стимула.
Чтобы научить вокодер интерпретировать мозговую деятельность, Месгарани объединился с нейрохирургом Динешем Мехта, специализирующемся на лечении пациентов с эпилепсией.
«Работая с доктором Мехта, мы попросили пациентов с эпилепсией, уже перенесших операцию на мозге, прослушать предложения разных людей, а сами в это время измерили шаблоны мозговой активности, — объясняет Месгарани. — Эти шаблоны нужны были для «тренировки» вокодера».
Участниками исследования стали пятеро пациентов, в мозге которых были установлены электроды, необходимые, чтобы «гасить» начинающийся эпилептический припадок. Это сделало возможным электрокортикографию — исследование коры мозга, заключающееся в регистрации ее бипотенциалов (взаимодействия электрических зарядов в тканях) с помощью электродов, размещенных прямо на ее поверхности.
Затем исследователи попросили тех же пациентов прослушать, как называются цифры от 1 до 9, а сигналы их мозга тем временем были пропущены через вокодер. После их обработки с помощью нейронных сетей вокодер «заговорил». Для обработки на этот раз использовалось глубокое обучение нейросетей — метод, при котором нейросеть оказывается способна предсказывать результат на основе набора входных данных. Это позволило наложить больше ограничений на синтезируемую речь и добиться лучшего моделирования свойств речевого сигнала.
Результатом стал роботизированный голос, повторяющий последовательность чисел. Люди же должны были прослушать запись и сообщить, что они услышали.
«Мы обнаружили, что люди способны понять и повторить эти звуки в 75% случаев, что значительно превосходит любые предыдущие попытки,
— делится Месгарани. Улучшения были особенно заметны по сравнению с ранними экспериментами со спектрограммами. — Чувствительный вокодер и мощные нейронные сети создавали звуки, которые добровольцы распознавали с удивительной точностью».
По сравнению с методами анализа спектрограмм, улучшить разборчивость синтезируемой речи удалось на 65%. Кроме того, было установлено, что на качество речи напрямую влияло время обучения нейросети — чем оно было продолжительнее, тем лучше оказывался результат.
Доктор Месгарани и его команда планируют в будущем протестировать более сложные слова и предложения. В конечном счете они рассчитывают, что их систему можно будет использовать для имплантов наподобие тех, что ставятся в мозг людям с эпилепсией — только они будут не гасить приступы, а переводить мысли владельца в слова.
«Владелец будет думать: «Мне нужен стакан воды», наша система будет воспринимать сигналы мозга, генерируемые этой мыслью, и превращать их в синтезированную речь, — говорит Месгарани.
— Это изменит правила игры. Это может дать каждому, кто потерял способность говорить из-за травмы или болезни, новый шанс связаться с окружающим миром».
Ранее для восстановления речи и двигательной активности после инсульта специалисты МГУ и ФГБНУ «Научный центр неврологии» разработали экзоскелет, также управляемый «силой мысли».
Разработанные экзоскелеты применяются в случаях поражения головного мозга, когда требуется восстановить движения конечностей или имеются затруднения речи после инсульта. Технология направлена на то, чтобы вернуть человеку всю гамму движений. В первую очередь речь идет о руках, ногах, речедвигательном аппарате», — рассказал доктор психологических наук профессор психологического факультета МГУ Юрий Зинченко.