«Наша цель — понимающий компьютер»

Заведующий кафедрами компьютерной лингвистики РГГУ и МФТИ о том, может ли компьютер не только сравнивать, но и понимать смысл сравнения

Как создать искусственного футбольного комментатора, можно ли экранизировать русскую классику без режиссера и почему теорема Гёделя не страшна компьютерным лингвистам, рассказал «Газете.Ru» заведующий кафедрами компьютерной лингвистики РГГУ и МФТИ и директор по лингвистическим исследованиям компании ABBYY Владимир Селегей.

— По образованию вы инженер-математик, заканчивали МЭИ и последние 20 лет возглавляете исследовательский отдел в ABBYY – IT-компании, предлагающей решения в области лингвистики и автоматизированной обработки текстов. Как вы пришли в компьютерную лингвистику?

— В компьютерную лингвистику я пришел из области, которая называется «искусственный интеллект», работая в конце 80-х в лаборатории Евгении Тихоновны Семеновой и Дмитрия Александровича Поспелова. Группа Семеновой занималась языками представления знаний, делала, в частности, первые в СССР трансляторы с языков LISP и FRL для ЕС ЭВМ — тогда это был, что называется, передний край программирования. Например, некоторые ее студенты с помощью FRL и замечательной книги Проппа «Морфология волшебной сказки», где вычленялись базовые риторические структуры этого жанра, пробовали генерировать сказки на компьютере. Конечно, с точки зрения филологов, сказки эти выглядели весьма «ненатурально», явного прикладного потенциала в этой работе тоже не было, но, с моей точки зрения, это был образец правильно поставленной, интересной междисциплинарной педагогической задачи, когда, с одной стороны, студенты получали знания о структуре языка и определенном феномене культуры, с другой – овладевали программированием, с третьей – решали нетривиальную задачу в области искусственного интеллекта.

— То, чем занималась группа Семеновой, сильно опережало свое время: это были такие позднесоветские skunkworks, безумные венчурные проекты, осуществляемые группой энтузиастов-гиков. Сейчас такое невозможно?

— Сейчас студенту говорят «думай сразу, как будешь зарабатывать». И магистры, в том же физтехе, сильно ориентированы на работу в конкретных проектах компаний. С одной стороны, это замечательно: получается на выходе ремесленник, знающий, как делать востребованный продукт. С другой — студенты слишком профориентированы, от них отсекаются целые интереснейшие пласты знания и опыта! На кафедрах компьютерной лингвистики, которые созданы с участием нашей компании в физтехе и РГГУ, мы пытаемся отыскать баланс — давать ясные карьерные перспективы и при этом вовлекать студентов в сугубо научные проекты. В РГГУ, например, один из учебных проектов, которым руководит Елена Соколова, посвящен генерации текстов по фотографиям Прокудина-Горского (пионер цветной фотографии в России, создатель «Коллекции достопримечательностей Российской империи». — «Газета.Ru»). Студенты пытаются разобраться, каким способом можно описать, что на них изображено.

— Имеются в виду формализованные модели описания, позволяющие генерировать тексты на естественным языке с помощью компьютера?

— Вы правильно ставите вопрос, какой именно язык имеется в виду. Прежде чем перейти к естественному языку, нужно создать некую формальную модель для описания изображений. И лишь потом происходит конвертация формального описания картинки в линейную последовательность элементов языка. Это серьезная и сложная задача, подразумевающая планирование текста: выбор последовательности описания, описывающих глаголов, активных участников действия и т. д.

— Ваша компания – один из грантополучателей сколковского фонда. Сколково – это такая попытка государства инсталлировать в российском климате среду, где смогут возникать skunkworks? Сможет ли Сколково породить когда-нибудь условную «группу Семеновой»? Или там другие цели?

— Сколково для меня проект пока не до конца понятный. Например, в основе создаваемого Сколковского университета лежит идея взаимодействия российских и западных ученых. Причем разработчиком и куратором этого процесса является знаменитый MIT. Это попытка создать нечто, очень далеко отстоящее от российской традиции организации фундаментальной и прикладной науки. Но будет ли она удачной, пока неясно. Очевидно, что есть желание создать нечто действительно современное и эффективное, есть финансирование, есть сколковский комитет как венчурный инвестор, решения которого достаточно прозрачны. Пока это работает. Мы, например, получили инвестиции, которые позволяют заниматься тем, на что нет сиюминутного заказа. В нашем случае в проект на разработку системы понимания, анализа и перевода текстов включены задачи информационного поиска, основанного на глубинном семантическом анализе. С другой стороны, требования сколковского инвестора таковы, что обязательно должен быть и коммерческий результат от разработок.

— В чем отличие вашего подхода к системам поиска от существующих, в том числе на рынке?

— Технологии современных поисковых систем с точки зрения лингвистики довольно примитивны. Поясню. В области поиска сейчас господствуют статистические методы, которые позволяют добиться быстрых и полезных результатов без глубинного лингвистического анализа, за счет сопоставления больших объемов текстовых данных, находящихся в распоряжении системы, и истории запросов к ним. Применяются современные математические методы машинного обучения, но об анализе смысла поискового запроса речи не идет. То есть задача поиска ответа сводится к поверхностному сопоставлению запроса с огромным массивом потенциальных ответов.

— То есть в рамках такого подхода главная задача сводится к тому, чтобы свести вероятность «неожиданных» вопросов к минимуму?

— Любой язык обладает высокой степенью вариативности, способностью к перефразированию. Охватить с помощью чисто статистического обучения все возможные способы перефразирования очень сложно, или даже невозможно. Тем не менее статистические методы работают и дают интересные результаты — например, вопросно-ответная система IBM Watson умеет играть в Jeopardy (американский аналог «Своей игры») лучше человека. Наш подход альтернативный: мы стремимся выявлять смысловую близость вопроса и текста, основываясь на семантическом анализе. Это более рискованно и дорого, поэтому таким «наукоемким» путем мало кто идет. Соответствующие разработки есть у Google и Microsoft Research, которые могут себе позволить заниматься подобного рода проблематикой.

-- «Уотсон» – машина, которая правильно сравнивает, а ваша система ABBYY Compreno, поддержанная Сколково, — это машина, которая правильно «понимает»? Но что значит «понимать» в терминах компьютерной лингвистики?

— Мы пытаемся выделить семантическую структуру сообщения и соотнести ее с семантической структурой текста. Мы сравниваем не поверхностные цепочки языка, не просто последовательности слов, а их глубинные представления, которые могут быть ассоциированы со «смыслом». IBM Watson работает на уровне поверхностных структур, обучаясь на огромном количестве образцов, пытаясь выделить автоматически те факторы, которые позволят оценить вероятность того, что некоторая фраза является ответом на запрос.

— Построение «шкалы похожести» всех накопленных в глобальной сети вопросов и ответов, когда поисковой системе нужно лишь правильно идентифицировать вопрос и найти для него наилучшую аналогию в базе данных – это подход прагматиков. А ваш проект, как мне кажется, отличается более, что ли, романтичным представлением о компьютерной лингвистике, впрочем, и вообще о языке. Близка ли вам критика постструктуралистов, которые считали, что статистическое моделирование всегда упускает из виду креативную сущность языка? Не распространяется ли эта критика и на вашу попытку алгоритмизировать феномен понимания?

— Любое практическое решение задачи всегда что-то «упускает». В коммерческих системах ограничения, накладываемые на язык, могут быть очень сильными. В этом смысле у коммерческой компании положение, конечно, не такое выгодное, как у академического заведения: если выбран неверный путь и это выяснится через 5–10 лет, потраченные деньги никто вам не вернет. В науке же важен любой результат, даже если он неправильный, поэтому академические исследования могут быть гораздо более рискованными. Компьютерная лингвистика — наука очень прагматичная: достаточно сказать, что на ежегодных конференциях международной Ассоциации компьютерной лингвистики (ACL) отрицательные результаты долгое время нельзя было представлять вообще. Только с 2010 года ACL стала принимать доклады, в которых описываются отрицательные результаты.

— Распространялось ли такое прагматичное восприятие компьютерной лингвистки на исследовательскую деятельность внутри ABBYY?

— В том подходе, который мы избрали, изначально была важна фундаментальность. Мы сразу приняли довольно дорогое и затратное решение строить универсальные лингвистические модели, что обязало нас соблюдать определенную последовательность, так как при работе с языком вы не можете перескочить через какие-то стадии – у вас должна быть полноценная морфология, синтаксис, семантика, грамматическая семантика и т. д. Мы довольно долго занимались созданием компьютерной модели, в которую можно вкладывать описание любого языка, и мы ее создали: модель доказала свою работоспособность, мы смогли ее проверить на пяти языках — русском, английском, немецком, французском и китайском. Обращу внимание, что я говорю сейчас не о готовых продуктах (в настоящий момент платформа работает с английским и русским языками), а о логике исследований. Языки эти очень разные, объем материала, доступного для построения модели, тоже очень разный, особенно в случае с китайским языком, который изучается и описывается в совсем другой филологической традиции, чем индоевропейские. Тем не менее наши китаисты убедились, что описание базовых китайских понятий в лексике и грамматике вписывается в нашу универсальную модель.

— Что дальше? Над чем ваш отдел работает сейчас?

— Мы подошли к рубежу, когда получены, наконец, четкие гарантии, что никакой новый язык не породит для нас новых больших проблем. Как мы и предполагали, у универсальной лингвистической модели имеется огромный потенциал масштабирования: наши технологии анализа языка можно применять для самых разных практических задач. Поначалу мы ориентировались на машинный перевод, но сегодня возник и структурировался колоссальный рынок информационного поиска, где также требуются новые лингвистические технологии. Актуальны и задачи, связанные с классификацией документов, извлечением фактов и связей, сравнением и поиском различий в документах, анализом тональности. Одним из главных направлений исследований для нас сегодня является переход от семантических представлений текста к так называемым онтологическим, основанным уже на знаниях о мире, а не языке. Это сложная и интересная задача перехода от языковых описаний к системам формального описания конкретных предметных областей. Например, это могут быть универсальные онтологии пространства и времени или система описания какой-то конкретной среды, о которой идет речь в тексте.

— Это лингвистическая задача?

— Строго говоря, уже нет. В задаче описания пространства никакого языка может и не быть — например, если вы создаете модель компьютерной игры, в которой нужно моделировать объекты. Есть также и временная онтология, системы причинно-следственных связей и прочие системы описаний, нетривиально отражающиеся в языке, но существующие и сами по себе.

— Интересно слышать такое от лингвиста. Не проще ли перейти сразу к проблематике искусственного интеллекта, то есть, условно говоря, вернуться в лабораторию Семеновой?

— Смотря какую задачу вы решаете. Если вы решаете задачу, где можно обойтись без языка, то да.

— А существуют такие задачи?

— Возьмем случай виртуальной реальности, где вы должны чувствовать себя игроком, который бежит по футбольному полю, бьет по мячу и т. д. Здесь нет никакого языка, но есть система знаний о мире, которые нужно смоделировать, чтобы игра получилась натуральной.

— Но можно ли описать мир, пусть даже такой, футбольный, без языка?

— Здесь вы используете слово «язык» уже в математическом смысле. То есть понятно, что язык программирования — это тоже язык. Но мы сейчас говорим о естественном языке как средстве коммуникации. Мы, лингвисты, занимаемся естественным языком как средством передачи информации, эмоций, чего угодно. Допустим, вам нужно моделировать игру «футбол» — направление и силу удара, траекторию мяча и другую «физику». Здесь пока нет никакой языковой коммуникации, это просто детальное описание всех аспектов игры. Ну а теперь представим несколько иную задачу. Например, на последней конференции EACL (европейского подразделения ACL) был доклад, посвященный генерации футбольного репортажа. Комментирование — это задача совершенно другого типа, чем моделирование игры, это задача генерации текста по наблюдаемому действию. Комментатор выбирает действующих лиц, последовательность действий, а потом решает лингвистическую задачу подбора адекватных языковых средств, чтобы на выходе получился адекватный происходящему текст. Можно, кстати, решать и обратную задачу: у вас есть текст футбольного репортажа и нужно, используя текст, воссоздать то, что происходило на футбольном поле. Полную картину вы воссоздать, конечно же, не сможете, но кое-что получится. Задача компьютерной лингвистики — разработать такую модель семантического представления текста, чтобы в ней не осталось никаких неоднозначностей, характерных для естественного языка, и при этом ничего не пропало, что было выражено в исходном тексте. Причем это представление не должно уже быть связанным с конкретным языком: на входе же могут быть китайский, французский или английский языки, на выходе — универсальная структура, с которой можно работать уже по законам предметной области.

— Не кажется ли вам, что будущее за слиянием машинного и естественного языка? Насколько вообще оправданно разделение естественного языка и неестественного, учитывая колоссальную роль машинных систем виртуализации реальности, которую они играют уже сейчас и будут играть в будущем?

— У естественного языка много функций. Прямое «кодирование» того, что может быть представлено на машинном языке — только одна из них, но в процессе общения реализуются и другие функции. «Несовершенства» естественного языка, препятствующие его использованию как формального — неоднозначность, избыточность, эллиптичность, — являются одновременно и источником его неограниченных коммуникативных возможностей. Формальный язык универсальных семантических сущностей ценен тем, что позволяет работать с текстом не только компьютеру, но и специалисту-предметнику, например физику или математику. Через этот язык-посредник мы можем проецировать текст на, допустим, язык логики предикатов или систему описания каких-то физических законов. Но здесь нет никакого слияния — это просто разные языки для разных целей.

— Компьютерная лингвистика – вещь прагматичная, но при этом понятие языка, которым она оперирует, начинает все больше размываться, вам не кажется? Возможно ли, что лингвистика потеряет сам язык?

— Компьютерная лингвистика, вообще-то говоря, это инженерная наука, возникшая из попыток иногда предвосхитить, а иногда следовать за потребностями людей, которые работают с языком на компьютере, вот и все. Мы не знаем пока, как устроена языковая способность человека, этот механизм, позволяющий нам с вами разговаривать. В этом, собственно, заключается глобальная задача науки лингвистики. Мы пытаемся моделировать способность языка к передаче информации. Футбольный матч – это такой ограниченный игрушечный пример для моделирования: вы видите нечто, что происходит на футбольном поле, хотите рассказать об этом другому человеку, и у вас есть такой инструмент, с помощью которого можно, как этот делал Вадим Синявский (советский радиокомментатор, основоположник советской школы спортивного радиорепортажа. — «Газета.Ru»), так построить сообщение, что тот, кто слышит репортаж по радио, может практически «увидеть» картинку. На этом пути — от картины событий к воссозданию этой картины — язык выполнил свою функцию. Четко и ясно — как тут его «потеряешь»?

— Искусственный комментатор – программа, в которую заложена модель языка, которая моделирует комментатора. Вопрос в том, будет ли искусственный комментатор лучше комментировать футбольный матч, чем комментатор натуральный.

— Искусственный комментатор – это не самостоятельная задача, это лишь попытка смоделировать способность коммуникации, о которой я говорил. Замечу, это двунаправленная задача. С помощью программы можно попытаться как синтезировать репортаж по событию, так и воссоздать события по репортажу, например нарисовать картинку или сгенерировать видео. Один из наших заказчиков, Тимур Бекмамбетов, хочет, например, чтобы текст сценария автоматически конвертировался в анимацию. В этом случае мы моделируем того самого слушателя, который воссоздает картину происходящего, слыша текст.

— То есть в предельном случае можно виртуально экранизировать тексты классических романов, например?

— В идеале да, но модель мира, в которой придется воспроизводить художественный текст, будет колоссально сложной, в отличие от футбола с его чистым экшном. Идея программной визуализации классического текста прекрасная, но очень сложная: здесь требуются уже не только обширные знания о мире, но и глубокое «модельное» понимание психологии. Впрочем когда-нибудь кто-нибудь и попытается это сделать, не сомневаюсь.

— Есть точка зрения, что компьютерная лингвистика в нынешней алгоритмической парадигме машинного представления информации никогда не сможет выйти за пределы узкоприкладной дисциплины в силу того, что человеческое мышление, продуктом или копродуктом которого является язык, не может быть формализовано в терминах машины Тьюринга и вычислительной архитектуры фон Неймана, лежащих в основе современного компьютинга. Что вы думаете об этом? Что делать компьютерному лингвисту, если естественный язык и машинный язык имеют дело с разными реалиями?

— Гуманитарии всегда любили поговорить, например, о «заклятии» теоремы Гёделя, на которую вы, возможно, намекаете. Но я не думаю, что в нашей практический жизни можно увидеть какие-то практические следствия из этой теоремы, которая адекватна и верна в рамках сильно формализованного, математизированного мира. В мире повседневных, практичных вещей это всего лишь метафора. Формализация знаний о языке — процесс очень сложный и длительный. Да, у нее есть принципиальные ограничения «сверху», но мы находимся совсем не на том уровне сейчас, где это может ощущаться. Вот простой пример – интонация нашей речи. Эта подсистема языка чрезвычайно важна и эффективна в коммуникации, может становиться средством манипуляции аудиторией. И теорема ли Гёделя или фон-неймановская архитектура «виноваты» в том, что мы не умеем пока в полном объеме описать интонационные правила, которыми владеет любой носитель языка?

— Но если сказки, которые будут генерировать компьютеры, так и останутся чересчур «ненатуральными», не выйдет ли так, что компьютерным лингвистам будет поздно жаловаться на вычислительную парадигму, с которой они так крепко подружились?

— Генерация сказок (и художественного текста вообще) – это очень увлекательная задача, и я думаю, что можно было бы чего-то достичь в этой области уже сейчас, но компьютерная лингвистика в целом не может ставить цели, которые не ведут к практически существенным результатам. Но вычислительная парадигма, которая в принципе непригодна для постановки таких задач, конечно же, должна будет рано или поздно уступить место более совершенной. Мы надеемся, что выбрали парадигму правильно, но в любом случае есть интересные с научной точки зрения задачи, которыми мы могли бы заниматься в принципе, но не можем себе это позволить, пока не появится заказчик, которому это окажется важно.

— 20 лет назад никто не мог представить себе, что будут созданы игровые имитаторы футбола с уровнем реалистичности, какой демонстрируют нынешние компьютерные игры. Хотя, если копнуть, в основе современного видео-рендеринга лежат некоторые маргинальные математические разработки, сделанные в середине 70-х годов прошлого века.

— Совершенно верно, поэтому компании важно иметь технологический задел на будущее. Нельзя ориентироваться только на текущие потребности рынка Мы, например, потратили много ресурсов in advance, когда только начинали разработки в области анализа текстов. Тогда, около 15 лет назад, заказчики плохо понимали, чего они, собственно, хотят от языковых технологий. Зато сегодня рынок этот сформировался и стремительно растет, структурируется, определились отдельные перспективные направления, например opinion mining, когда компаниям интересно, какие мнения об их товарах циркулируют в социальных сетях и блогосфере. И тут могут выстрелить технологические наработки, ожидавшие своего времени.

— Не размывается ли с массовым ростом компьютерных соцсетей хрестоматийная бинарная оппозиция речи и текста, важная и актуальная когда-то в контексте лингвистических исследований? Общение в соцсетях — что это? Речь или текст?

— Я бы другое тут выделил. Лингвистика долгое время была наукой кабинетной и большей частью имела дело с языком, на котором говорили сами же лингвисты. То, что произошло за последние 10–15 лет в связи с развитием интернета и соцсетей, – это, конечно, настоящая революция для лингвистики, связанная с тем, что молчавшее, обделенное вниманием лингвистов большинство получило возможность и форму выражения. И лингвистика обязана это исследовать, потому что речь каждого человека имеет одинаковую ценность для лингвиста. Мы занимаемся этим. Обе наши кафедры — в РГГУ и МФТИ — совместно с коллегами из Университета Лидса принимают участие в проекте создания специального исследовательского корпуса, он будет называться «Генеральный интернет-корпус русского языка» (ГИКРЯ).

— В чем его отличие от Национального корпуса русского языка?

— Национальный корпус – это особый, очень важный, но всего лишь один остров в целом архипелаге, с которым можно сравнить язык. Построенный на определенных типах речевых произведений, адекватный и достаточный для определенного типа языковых исследований, например исследований грамматики. Для изучения живого языка в целом он не годится: недостаточно представителен. В свою очередь, интернет сам по себе – никакой не инструмент исследования: там нет языковой разметки, достоверной статистики и т. д. Генеральный интернет-корпус русского языка должен занять нишу между интернетом и Национальным корпусом. Последний примерно на четыре порядка меньше рунета, а мы делаем корпус на два порядка больше Национального корпуса и два порядка меньше рунета – что-то как раз посередине, и блоги будут занимать в нем большое место. Что очень важно в этом проекте – он ориентирован на лингвистические исследования языка, но делается исключительно методами компьютерной лингвистики.

— Можно ли сказать, что будущее компьютерной лингвистики – это сетевая компьютерная лингвистика, имея в виду колоссальный рост соцсетей, блогов и сетевых хранилищ информации?

— Не вполне ясно, что можно назвать сетевой компьютерной лингвистикой. Попробую это интерпретировать. Возьмем Wiki-модель, при которой сбор знаний о языке может осуществляться совершенно немыслимым для традиционной системы сбора языковых данных числом исследователей, но зато очень часто — вне системы профессионального редактирования, обеспечивавшего непротиворечивость и концептуальную последовательность. Например, так устроены многочисленные сетевые словарные и энциклопедические ресурсы. Несмотря на все очевидные издержки, Wiki-подход становится доминирующим. Изменить эту ситуацию невозможно — нужно уметь извлечь выгоды для лингвистической науки. К примеру, есть вид лингвистических задач, которые просто невозможно решить вне Wiki-подходов. Приведу пример одного из наших совместных с академическими исследователями проекта «Языки русских городов» по изучению языковых различий между российскими городами. Его невозможно было бы реализовать без создания Wiki-ресурса, на котором жители разных городов могли бы обмениваться мнениями, выступать в качестве и экспертов, и донаторов, предлагающих для обсуждения свои региональные словечки. Подчеркну: в таком проекте первичная экспертиза должна производиться именно «наивными» носителями языка, а не профессиональными лингвистами. Более того, сегодня в мире созданы и широко применяются в компьютерной лингвистике специальные инструменты использования общественного экспертного мнения, так называемого краудсорсинга. Например очень популярны опросы с помощью mechanical turks на Амазоне, когда можно получать распределенное экспертное мнение по тому или иному вопросу и, отсекая специальными методами маргиналов, вычленять «золотую середину». В таком смысле современная компьютерная лингвистика действительно становится «сетевой».

— Нельзя ли в таком случае решать и задачи поиска, идя «снизу», то есть от экспертизы на основе человеческого краудсорсинга, а не сверху, статистически упорядочивая огромные массивы данных или создавая по возможности более универсальные, сложные и глубокие семантические «понимающие» модели?

— Нельзя абсолютизировать никакие методы. И краудсорсинг, и статистический анализ, и глубинный семантический анализ являются методами, которые должны использоваться в комплексе. Если не проверять языковые модели с помощью статистики употребления и/или с помощью краудсорсинга, можно создать нечто весьма далекое от реальности. Так же и системы, которые обучаются исключительно на статистике запросов, начинают вести себя раздражающе «средне», например может страшно раздражать настойчивое стремление системы поиска угадать с полуслова ваши желания, подсовывая вам наиболее вероятные, но вовсе не нужные вам варианты запроса, исправляя ваши «ошибки» и т. п. Конкретного человека это может не устроить, ведь издержка статистики — это ориентация на середнячка. Впрочем, кластеризация и выделение групп единомышленников – это еще одна отдельная область, где есть чем заняться и компьютерной лингвистике.