Авторская атрибуция текста — большой проблемный подраздел компьютерной лингвистики и теории искусственного интеллекта, весьма перспективный с точки зрения практических инструментов, которые можно разработать на его основе.
Получив в распоряжение алгоритм авторской атрибуции, можно, например, эффективно раскрывать псевдонимы, что, как несложно догадаться, станет весьма востребованной процедурой в условиях анонимных сетевых коммуникаций.
Авторская атрибуция древних текстов и литературных произведений относится к области фундаментального гуманитарного знания, практический смысл которого не очевиден, но общественный резонанс может быть значительным (как, например, в случае решения «шекспировской проблемы» или авторской атрибуции «Слова о полку Игореве»). Как бы то ни было, используя эти тексты как полигон для обкатки аналитических программ и сопоставляя результаты с данными традиционной текстологии, можно не только совершенствовать созданные программы, но и корректировать выводы, полученные традиционными некомпьютерными методами.
В этом смысле библейские тексты, скрупулезный анализ которых насчитывает уже не одно столетие, разложенные текстологами чуть ли не по буквам, предоставляют удобный материал для тренировки искусственного интеллекта.
С результатами такой тренировки познакомил коллег на состоявшейся недавно в Портленде (США) ежегодной конференции Ассоциации компьютерной лингвистики Моше Коппел, профессор факультета компьютерных исследований Университета имени Бар-Илана, расположенного в Рамат-Гане под Тель-Авивом.
Профессор Коппел — личность весьма примечательная. Кроме собственно научной деятельности он известен также и как политический активист, выступающий за принятие Израилем гражданской конституции, он соавтор одного из koppel/constitution-english-04%5B1%5D.07.06-published.pdf> ее проектов, гарантирующего израильтянам свободу вероисповедания и культурной идентичности.
В сфере же компьютерной лингвистики Коппел известен помимо прочего как один из авторов алгоритма, умеющего с точностью до 85% определять пол автора анонимных текстов и давшего еще один небезынтересный повод для очередной дискуссии, действительно ли мужчины и женщины разговаривают на разных языках.
skin: article/incut(default)
data:
{
"_essence": "test",
"id": "3594461",
"incutNum": 2,
"repl": "<2>:{{incut2()}}",
"uid": "_uid_3684481_i_2"
}
Недетерминированность здесь — ключевая характеристика, подразумевающая, что алгоритм не оперирует никакими другими данными о возможных авторах, созданных ими текстах и особенностях их языка, помимо тех, которые содержатся в анализируемом тексте — системе формально взаимосвязанных элементов. Программа имеет дело только с текстом «как он есть»,
отсекая, таким образом, все многочисленные контексты, с которыми, например, всегда имеет дело традиционный гуманитарий, приступая к анализу литературного произведения.
В практическом отношении недетерминированность методики — очень важная характеристика, поскольку при атрибуировании того или иного опуса информация о потенциальном авторе или вообще отсутствует, или является предвзятой, что может лишь скомпрометировать экспертную репутацию алгоритма.
Согласно традиционному взгляду, Пятикнижие представляет собой божественное откровение, записанное с начала до конца пророком Моисеем и данное ему, когда он находился в полном сознании («устами к устам… и явно, а не в гаданиях…», Чис. 12:8) и, так сказать, тет-а-тет («и говорил Господь с Моисеем лицом к лицу, как бы говорил кто с другом своим», Исх. 33:11). В противоположность традиции научная библеистика давно пришла к выводу, что
Пятикнижие представляет собой сложную компиляцию текстов, написанных в разное время разными людьми или группами людей, придерживавшихся различных взглядов и оперировавших разными литературными методиками.
skin: article/incut(default)
data:
{
"_essence": "test",
"id": "3585185",
"incutNum": 3,
"repl": "<3>:{{incut3()}}",
"uid": "_uid_3684481_i_3"
}
Как уже отмечалось, в алгоритм авторской атрибуции, предложенный Моше Коппелем, заложены исключительно формальные, статистические механизмы для нахождения авторских компонентов (авторы их называют кластерами) в том или ином тексте. Тем более интересно, что нейтральный математический анализ, приложенный к Пятикнижию, также выявил два независимых параметрических слоя в тексте Торы, совпав с двухсоставной атрибуцией ее частей, предложенной традиционной научной библеистикой, в 90% случаев, то есть почти полностью.
Гипотеза двух авторских групп, таким образом, получила если и не объективное подтверждение (за давностью лет проверить непосредственно, кто сочинял Пятикнижие, уже нельзя), то как минимум математически.
Впрочем, авторы зафиксировали и расхождения с принятой в библеистике атрибуцией. Так, первая глава книги Бытия, которая обычно приписывается «жреческому» автору, программой распознана как «нежреческая». В случае с книгой Исайи, уже не входящей в состав Пятикнижия, и которая, как считается, написана двумя авторами, притом второй автор начинает доминировать с 39-й главы, программа подтвердила двойное авторство, однако доминирование второго автора она зафиксировала на шесть глав раньше — с 33-й.
skin: article/incut(default)
data:
{
"_essence": "test",
"id": "3623721",
"incutNum": 4,
"repl": "<4>:{{incut4()}}",
"uid": "_uid_3684481_i_4"
}
Программа прошла испытание на отлично, точно определив и рассортировав все фрагменты по двум различным авторам, что, по идее, должно вызвать у традиционных библеистов большее доверие к результатам, полученным программой при анализе оригинальных текстов Библии.
Всех прочих библеистов, уверенных, что автор у Пятикнижия всего один, израильские специалисты по компьютерной лингвистике призывают не расстраиваться понапрасну. Задача программы, поясняют авторы статьи, не объяснить, а выявить различные голоса, на которых написан исследуемый текст. Иначе говоря, нельзя исключать и вероятность, что у Пятикнижия был действительно один автор, просто разговаривавший разными голосами. «Но уже никакие научные исследования не объяснят, зачем ему это понадобилось», — не без юмора резюмирует профессор Коппел.