«Просто есть много лажовых диссертаций»

Отдел науки «Газеты.Ru» разобрался в том, как работают программы по поиску плагиата в диссертациях

Павел Котляр
Волна разоблачений и скандал, связанный с штампованием «липовых» диссертаций, набирает обороты. Кто выводит горе-диссертантов на чистую воду и насколько это сложно, выяснял отдел науки «Газеты.Ru».

Проекты, занимающиеся поиском недобросовестных заимствований, можно условно разделить на два типа.

«Антиплагиат»

К первому относятся платные сервисы, которые предлагают клиентам услуги по поиску плагиата в различного рода документах. В России лидером на этом рынке услуг является работающий с 2005 года портал «Антиплагиат.Ru». Он предлагает любому пользователю, загрузить через специальную форму документ и, произведя оплату, узнать, какие куски неоригинальны и откуда они, скорее всего, были списаны. Результатом работы сервиса является исходный текст с подсвеченными отдельными кусками, которые где-то были обнаружены, рядом указаны ссылки на первоисточник. «Специальные программы-роботы просматривают сайты в сети и все с определенной точки зрения пригодные для индексирования интернет-ресурсы укладывают в нашу базу данных. Это наша собственная коллекция, которая хранится на серверах, она постоянно пополняется, и сегодня в ней содержится более 40 млн существенно уникальных документов», — рассказал «Газете.Ru» исполнительный директор ЗАО «Анти-Плагиат» Юрий Чехович.

В базу включены любые текстовые документы, открыто лежащие в сети, пригодные для заимствования: рефераты, периодика, новостные сообщения, библиотечные материалы. Вторую часть «коллекции» составляют диссертации, которые в цифровом виде лежат на серверах Российской государственной библиотеки.

Софт «Антиплагиата» стоит на серверах РГБ, это дает возможность доступа к 800 тыс. диссертаций и авторефератов, выложенным за последние 12 лет. Все диссертации, которые были защищены ранее (примерно с 1947 года), хранятся в библиотеке в неоцифрованном виде и участия в поиске плагиата не принимают. Чаще всего за помощью в проверке текстов обращаются вузы. На март 2013 года среди постоянных пользователей сервиса было более 160 высших учебных заведений, которые заинтересованы в проверке учебных работ и научных (учебники, методички, диссертации) текстов. С вузами заключается договор, по которому примерно за 200 тыс. рублей в год учебное заведение подключается к системе «Антиплагиат-ВУЗ». Отдельные физические лица могут завести себе аккаунт и минимум за 75 рублей в день могут проверить интересующий текст на соответствие в интернете. При этом проверка с привлечением базы диссертаций обойдется искателю правды в 600 рублей в день. В год к этим услугам обращаются несколько десятков тысяч пользователей.

Помимо этого клиентами сервиса являются крупные государственные компании, такие как «Росатом», Центр информационных технологий и систем органов исполнительной власти — ЦИТиС, Минобрнауки.

«Мы используем модифицированный алгоритм шинглов (алгоритм, созданный для поиска копий и дубликатов текста). Он позволяет вылавливать большие куски заимствований, хотя и пять-шесть слов, идущих подряд, мы найдем», — пояснил Чехович. Задача команды — поточная обработка текстов, в сутки через сервис проходит до ста тысяч документов.

Авторы проекта подчеркивают, что в задачи их сервиса не входит поиск новых «жертв» разоблачений или интерпретация полученных сведений. «Мы занимаемся инструментом, грубо говоря, делаем экскаваторы, лопаты, которыми роют канавы. Где кто какую канаву выкопал — у нас нет возможности отследить», — считает Чехович. В настоящее время программу «Антиплагиат» взяло на вооружение Министерство образования, которое с ее помощью проверяет оригинальность защищаемых диссертаций. Некоторые критики жалуются на то, что Минобрнауки делает ставку на частную компанию, принципы работы которой не являются открытыми, и при поиске плагиата заинтересованные лица могут изменять результаты. Кроме того, возникает вопрос, может ли система стать способом сведения счетов. «Мы в некотором смысле производим радары, которые меряют скорость. Если кого-то из высокопоставленных лиц поймают на дороге за превышение скорости, то об этом могут написать в прессе и это может действительно стать сведением счетов. Вопрос: виноват ли в этом производитель радаров? Важно то, что любой человек может зайти и убедиться в этих результатах», — отвечает исполнительный директор. По его мнению, в России функция контроля за «чистотой» диссертаций должна возлагаться главным образом на диссертационные советы, о реформировании которых Минобрнауки объявило накануне. «И кроме этого я приветствую идею опубликования диссертаций и дипломных работ. Все квалификационные работы, за исключением каких-то закрытых тем, должны быть открыты, и тогда проблема заказных дипломов, диссертаций отпадет сама собой или же люди станут нанимать человека, который напишет честную работу», — добавил он.

Стоит отметить, что проект «Антиплагиат» не уникален. Мировым лидером по поиску заимствований на платной основе является американский сервис Turnitin. Среди его клиентов несколько тысяч юридических лиц, компания прошла IPO, в ходе которого ее стоимость была оценена в $1 млрд. Компания работает по всему миру, осуществляя поиск плагиата на английском, арабском, голландском, испанском и ряде других языков. Кроме того, поиском заимствований занимаются такие мировые сервисы, как Compilatio (Франция), Copyscape, iPlagiarismCheckCheckForPlagiarism.net и другие.

Диссерорубки

Вторым, более «гражданским» типом проектов-разоблачителей являются сообщества активистов-добровольцев, аналогичные знаменитой «Диссерорубке Ростовцева», созданной заведующим лабораторией физики элементарных частиц ИТЭФ Андреем Ростовцевым. Подобные проекты являются скорее сообществом анонимных энтузиастов, которые по поводу каждой проверки делают экспертное заключение.

Разработанный при участии Ростовцева проект Dissernet.org уже разоблачил не одну диссертацию, а известный журналист Сергей Пархоменко (признан в РФ иностранным агентом) стал его активным участником и знакомит публику с новыми разоблачениями. Последней, самой яркой вехой в «диссергейте» стал скандал с кандидатской-докторской диссертацией главного защитника российских детей Павла Астахова. Стремление отдельных граждан к самостоятельному поиску «копипаста» в научных трудах известных людей началось с истории Андрея Андриянова, директора СУНЦ МГУ, поплатившегося должностью за «липовую» кандидатскую.

«За это время многие люди поняли, что есть возможность как-то повлиять на ситуацию, которая заключается в том, что просто есть слишком много лажовых диссертаций», — рассказал Ростовцев «Газете.Ru».

Изначально копание в диссертациях привлекло ученого с точки зрения так называемой интертекстуальности. «За всю историю создано огромное количество текстов, но между ними нет межтекстовой связи, которая может сказать нам об относительной новизне текста, противоречиях. Сравнивая текстовые «гены», мы устанавливаем эти интертекстуальные связи», — пояснил он. По его словам, скрипт, посылающий запросы по открытым источникам в интернете и осуществляющий поиск совпадений, занимает буквально несколько строчек, его может написать «любой человек» после прочтения книжки по языку Perl.

При этом не стоит думать, что «копатели» — это тайное общество, которое собирается вместе и принимает решение, какому известному деятелю снова напакостить. «Один у нас в Канаде работает, другой в Испании, некоторых людей я даже не вижу и не знаю. Всего в проекте работают несколько десятков человек», — пояснил он.

Сервис основан на платформе Wikia, в которой любой член сообщества, оставаясь анонимом, может выложить доказательства плагиата в диссертации с указанием первоисточника.

По словам Ростовцева, к нему за проверкой нескольких диссоветов обратилось Минобрнауки, пришлось проверить порядка 200 авторефератов. Оказалось, что среди них есть масса довольно прилично выполненных работ, а доля некачественных работ составила не более 10%. Персоны, в отношении которых решается вести проверку, возникают спонтанно. К примеру, недавно в проект обратилась жительница Урала, родственнику которой сделали неудачную операцию. Женщина выяснила, что хирург защитил на схожую тему диссертацию, и решила ее проверить. «Наша программа работает минуту, она лишь дает указание, где посмотреть, с чем сравнить», — поясняет Ростовцев. Весь текст разбивается на фразы (порядка 10 слов), и ищутся источники, в которых эти фразы встречаются. Затем из Ленинской библиотеки выкачиваются диссертации, на которые указала программа, и уже люди вручную находят совпадения. Самое большое время требуется на то, чтобы человек воочию увидел и задокументировал заимствования. Результатом становится таблица, в которой номера страниц раскрашены цветами, соответствующими разным источникам заимствования.

Примером для создания этого сообщества стало известное в Германии и созданное на той же платформе объединение Vroniplag. Его создал разоблачитель немецких политиков Мартин Хайдингсфельдер, первой жертвой которого стал министр обороны Карл Гуттенберг.

Название проект получил по имени Вероники — дочери крупного политика, лишившейся из-за плагиата докторского звания. Позднее участь Вероники постигла и ряд других политиков, в том числе федерального министра образования Анетте Шаван.

В настоящее время в проекте работают около полутысячи человек и порядка 20 администраторов, все на добровольных началах и анонимно. При этом в правилах сообщества записано, что никто из членов не вправе принимать никакой оплаты или пожертвований. Главное достоинство этого проекта — личная ответственность волонтеров, которые проверяют друг друга. Каждой диссертации присваивается штрих-код: черный, если на странице плагиат занимает менее 50% текста, коричневый — более 50% и красный — более 75%.

Причина, по которой разработчики «Диссернета» отошли от этой схемы и решили раскрашивать страницы отечественных диссертаций в отдельные цвета в таблице, связана со спецификой создания отечественной научной «липы». <3> К примеру, в таблице проверки работы Астахова желтый цвет соответствует страницам, списанным из собственной кандидатской диссертации, а темно-зеленым, как, например, страницы 388—391, — страницам, списанным с диссертации некоего Малахова.

«В некоторых диссертациях есть не просто заимствования, а гигантские, ковровые заимствования, многостраничные «копипасты» с картинками, таблицами и орфографией», — пояснил Ростовцев.