На пресс-конференции шутили, что вскоре в прессе появятся статьи с заголовками «Cognitive поймала Донцову на плагиате», хотя всем было понятно, что имя Донцовой всплыло не из стремления восстановить литературную справедливость: история с писательницей выбрана в качестве приманки. Дело в том, что компания Cognitive Technologies, проводящая исследования в области лингвистики и искусственного интеллекта (стандартные задачи: поиск документов, рубрикация, анализ и распознавание текстов, автоматический перевод), в качестве побочного и промежуточного результата разработок создала систему определения авторства текста.
Не то чтобы это новое слово в науке: если порыться в интернете, вы можете найти сотни систем «антиплагиата», предлагающих преподавателям узнать, не взята ли курсовая, вызывающая подозрительное deja-vu, из базы рефератов.
Что уж говорить о научных институтах, в которых, возможно, уже давно изобрели искусственный разум, справляющийся с задачами намного более сложными, но их создателям просто не хватило пиар-фантазии для созыва пресс-конференции с презентацией программы посредством определения подлинности текста Донцовой.
В любом случае, то, что вы можете найти в сети, — довольно примитивные системы, которые вряд ли справятся с задачей, если текст переработан. Cognitive Technologies уверяет, что их программа анализирует не только синтаксис и грамматику, но и стилистику, и даже сюжет. В качестве первого примера был приведен следующий случай. Берется басня Крылова «Ворона и лисица» и переписывается слово в слово, только с заменой главных действующих лиц. Вместо вороны — корова, вместо лисицы — синица, а вместо сыра — сервелат. То есть объекты изменились, а значит, стандартный «антиплагиатор» не признал бы сходство, тогда как демонстрируемый анализатор показал, что близость текстов чрезвычайно велика.
Далее, поигравшись немного с классикой (оказалось, Достоевский с высокой вероятностью ничего не крал у Крылова), перешли к сравнению текстов Черского и Донцовой.
Предыстория такова: в мае этого года редактор журнала Maxim Игорь Черский обнаружил, что его рассказ «Вспоминая Оксфорд», опубликованный в журнале «Карман» в 2000 году, а до этого — в одной из конференций Экслера в сети ФИДО в 1998 году, в несколько измененном, но узнаваемом виде присутствует в 19-й главе книги Донцовой «Жаба и кошелек». Трудно предположить, что Донцова — заядлая фидошница, и, возможно, она действительно не знает о существовании журнала «Карман» (именно на это, в частности, напирает издательство «Эксмо», защищающее детективщицу от нападок). Но история Черского уже давно разошлась по интернету, превратившись из частного рассказа в хохму с анекдот.ру, поэтому прочесть ее можно было где угодно.
Причем как только началась эпопея с Черским, тут же всплыла масса других эпизодов: утверждается, что добрая часть книг, которые Донцова пишет стахановскими темпами, построена на переработке анекдотов и чужих историй. Пользователи сети превратили это в своебразное хобби — отыскать, что и откуда «украла» Донцова, для этого даже был создан даже сайт http://www.dontsova.org/, где, помимо открытых писем, публичных реакций и отрывков из интервью, выкладываются подозреваемые в плагиате куски из произведений Донцовой. Помимо ЖЖ и анекдот.ру, Донцова, по мнению блюстителей авторских прав, вдохновлялась Беляевым, Чапеком и Хмелевской.
Но дальше угроз и разговоров дело не пошло, иск так и не был предъявлен, а последняя запись на сайте датируется 7 июня.
Так вот именно эту анекдотическую историю (кто знает, может, она обнаружится в новой книге Донцовой) вытащила Cognitive Technologies, чтобы продемонстрировать мощь созданной ими программы. По результатам сравнения выяснилось, что: а) злополучный отрывок очень близок к тексту Черского; б) этот кусок по стилю больше похож на рассказы Черского, чем на другие книги Донцовой; в) детективы Донцовой вообще друг на друга мало похожи, меняясь от книги к книге.
Сравните два абзаца. Вот Черский: «Картина хлебом с маслом: в наш офис приезжает безумно крутой кавказец с двумя телохранителями и сыном. Сыну — 15 лет. Папа хочет, чтобы он учился «в Оксфорде на адвоката». Hу, нахожу в компьютере все материалы по оксфордским учебным заведениям, называю приблизительную цену. Папу все устраивает. Отправляю факс, получаю ответ с точной суммой. Причем оплачивать можно частями, за каждый семестр. Папа говорит, что лучше он сразу оплатит весь курс обучения, потому что завтра его могут убить, а сыну надо учиться. Сумма огромная, поэтому я пытаюсь устроить сыну мини-тест, чтобы определить глубину его познаний. Сын молчит. Папа орет, что мальчик учился на одни пятерки (не сомневаюсь, тем более что папа наверняка купил ему школу). ОК. Папа оплачивает весь курс. Мальчик летит в Англию...»
Донцова:
»... Однажды в эту контору явилось лицо кавказской национальности, обвешанное золотом и окруженное телохранителями. С ним пришел сынишка, паренек лет семнадцати, весь в прыщах, самого противного вида. Лицо заявило, что желает отправить отпрыска в Сорбонну учиться на адвоката. Поскольку мне с каждого оформленного на учебу ребенка «капала» определенная сумма, я с жаром взялась за дело и сообщила примерную стоимость обучения, на мой взгляд, несуразно огромную.
Чтобы сразу не отпугнуть кавказца, я сказала:
— Можно платить по частям, за каждый семестр отдельно.
«Лицо» покачало головой:
— Нэт. Мэня убить могут, отдам дэньги сразу.
Сразу, так сразу, кто бы спорил, но не я. Но сумма-то бешеная, и я опрометчиво предложила:
— Давайте сейчас устроим мальчику небольшое испытание. Сорбонна присылает тесты, чтобы абитуриенты могли проверить свои знания. Кавказец обозлился и начал орать, что его сын учится на одни пятерки, ни на какие идиотские вопросы он тут отвечать не станет, и швырнул мне на стол дневник, весь усеянный пятерками.
Я тактично промолчала, но в глубине души была абсолютно уверена, что любящий папочка купил ради сыночка всю школу на корню. Парень оформил документы и улетел».
В данном случае никакой машины не требуется, достаточно беглого взгляда на текст. Однако доверять программе юридические решения все же несколько боязно: все писатели — плагиаторы в том смысле, что постоянно вдохновляются увиденными и услышанными историями, чужими жизнями и опытом. А ну как после тщательного разбора честных авторов не останется вовсе? Шекспир — и тот писал свои пьесы, опираясь на народный фольклор, а что говорить о постмодернистах...
Создатели программы предлагают использовать ее и в науке — определение подлинности и авторства исторических документов позволит уточнять датировки и события. На первый взгляд — это применение безобиднее, но ведь ошибка в трактовке истории может иметь последствия не менее, а то и более глобальные, нежели ошибка в деле об авторском праве. Впрочем, недоверие искусственному интеллекту — обычная штука, на пресс-конференции спрашивали: ну вы же понимаете, что человек всегда сравнит тексты гораздо лучше машины? Когда-нибудь искусственный интеллект за все отыграется, но пока ему не очень-то доверяют.