Авторская атрибуция текста — большой проблемный подраздел компьютерной лингвистики и теории искусственного интеллекта, весьма перспективный с точки зрения практических инструментов, которые можно разработать на его основе.
Получив в распоряжение алгоритм авторской атрибуции, можно, например, эффективно раскрывать псевдонимы, что, как несложно догадаться, станет весьма востребованной процедурой в условиях анонимных сетевых коммуникаций.
Также с помощью такого алгоритма можно автоматизировать мониторинг плагиата, создать экспертные системы, помогающие разрешать копирайтные конфликты и судебные тяжбы, связанные с клеветой и диффамацией, когда необходимо определить контекст употребления того или иного термина.
Авторская атрибуция древних текстов и литературных произведений относится к области фундаментального гуманитарного знания, практический смысл которого не очевиден, но общественный резонанс может быть значительным (как, например, в случае решения «шекспировской проблемы» или авторской атрибуции «Слова о полку Игореве»). Как бы то ни было, используя эти тексты как полигон для обкатки аналитических программ и сопоставляя результаты с данными традиционной текстологии, можно не только совершенствовать созданные программы, но и корректировать выводы, полученные традиционными некомпьютерными методами.
В этом смысле библейские тексты, скрупулезный анализ которых насчитывает уже не одно столетие, разложенные текстологами чуть ли не по буквам, предоставляют удобный материал для тренировки искусственного интеллекта.
С результатами такой тренировки познакомил коллег на состоявшейся недавно в Портленде (США) ежегодной конференции Ассоциации компьютерной лингвистики Моше Коппел, профессор факультета компьютерных исследований Университета имени Бар-Илана, расположенного в Рамат-Гане под Тель-Авивом.
Профессор Коппел — личность весьма примечательная. Кроме собственно научной деятельности он известен также и как политический активист, выступающий за принятие Израилем гражданской конституции, он соавтор одного из koppel/constitution-english-04%5B1%5D.07.06-published.pdf> ее проектов, гарантирующего израильтянам свободу вероисповедания и культурной идентичности.
В сфере же компьютерной лингвистики Коппел известен помимо прочего как один из авторов алгоритма, умеющего с точностью до 85% определять пол автора анонимных текстов и давшего еще один небезынтересный повод для очередной дискуссии, действительно ли мужчины и женщины разговаривают на разных языках.
На конференции в Портленде Коппел на примере компьютерного анализа Пятикнижия продемонстрировал разработанный под его руководством недетерминированный машинный алгоритм по выявлению авторских компонентов текста (некоторые идеи доклада содержатся в коллективной статье, выложенной koppel/papers/acl-bible-resubmitted-280211.pdf>здесь).
Недетерминированность здесь — ключевая характеристика, подразумевающая, что алгоритм не оперирует никакими другими данными о возможных авторах, созданных ими текстах и особенностях их языка, помимо тех, которые содержатся в анализируемом тексте — системе формально взаимосвязанных элементов. Программа имеет дело только с текстом «как он есть»,
отсекая, таким образом, все многочисленные контексты, с которыми, например, всегда имеет дело традиционный гуманитарий, приступая к анализу литературного произведения.
В практическом отношении недетерминированность методики — очень важная характеристика, поскольку при атрибуировании того или иного опуса информация о потенциальном авторе или вообще отсутствует, или является предвзятой, что может лишь скомпрометировать экспертную репутацию алгоритма.
Согласно традиционному взгляду, Пятикнижие представляет собой божественное откровение, записанное с начала до конца пророком Моисеем и данное ему, когда он находился в полном сознании («устами к устам… и явно, а не в гаданиях…», Чис. 12:8) и, так сказать, тет-а-тет («и говорил Господь с Моисеем лицом к лицу, как бы говорил кто с другом своим», Исх. 33:11). В противоположность традиции научная библеистика давно пришла к выводу, что
Пятикнижие представляет собой сложную компиляцию текстов, написанных в разное время разными людьми или группами людей, придерживавшихся различных взглядов и оперировавших разными литературными методиками.
Как стало понятно позже, пестрый авторский коллектив, стоящий за текстом, делится на две большие группы: жреческую — собственно жрецов или людей, явно приближенных к жрецам Иерусалимского храма, и группу авторов, несвязанных с жреческим сословием. Эти группы внесли разный вклад в формирование четырех первоначально независимых литературных источников, из которых впоследствии было сформировано Пятикнижие (см. справку).
Как уже отмечалось, в алгоритм авторской атрибуции, предложенный Моше Коппелем, заложены исключительно формальные, статистические механизмы для нахождения авторских компонентов (авторы их называют кластерами) в том или ином тексте. Тем более интересно, что нейтральный математический анализ, приложенный к Пятикнижию, также выявил два независимых параметрических слоя в тексте Торы, совпав с двухсоставной атрибуцией ее частей, предложенной традиционной научной библеистикой, в 90% случаев, то есть почти полностью.
Гипотеза двух авторских групп, таким образом, получила если и не объективное подтверждение (за давностью лет проверить непосредственно, кто сочинял Пятикнижие, уже нельзя), то как минимум математически.
Впрочем, авторы зафиксировали и расхождения с принятой в библеистике атрибуцией. Так, первая глава книги Бытия, которая обычно приписывается «жреческому» автору, программой распознана как «нежреческая». В случае с книгой Исайи, уже не входящей в состав Пятикнижия, и которая, как считается, написана двумя авторами, притом второй автор начинает доминировать с 39-й главы, программа подтвердила двойное авторство, однако доминирование второго автора она зафиксировала на шесть глав раньше — с 33-й.
Дабы удостовериться, что алгоритм работает с текстом Библии корректно, и чтобы избежать обвинений в «компьютерном волюнтаризме», причесывающем все тексты, будь то божественное откровение или образец блогерского словоблудия, одной гребенкой, группа Коппела устроила программе контрольный тест, подвергнув анализу связный библейский текст, искусственно скомпилированный из двух книг — пророков Иезекииля и Иеремии, и не вызывающей никаких сомнений в их авторской атрибуции.
Программа прошла испытание на отлично, точно определив и рассортировав все фрагменты по двум различным авторам, что, по идее, должно вызвать у традиционных библеистов большее доверие к результатам, полученным программой при анализе оригинальных текстов Библии.
Всех прочих библеистов, уверенных, что автор у Пятикнижия всего один, израильские специалисты по компьютерной лингвистике призывают не расстраиваться понапрасну. Задача программы, поясняют авторы статьи, не объяснить, а выявить различные голоса, на которых написан исследуемый текст. Иначе говоря, нельзя исключать и вероятность, что у Пятикнижия был действительно один автор, просто разговаривавший разными голосами. «Но уже никакие научные исследования не объяснят, зачем ему это понадобилось», — не без юмора резюмирует профессор Коппел.