Область лингвистики, изучающая законы развития языков, их рождения, изменения и смерти, очень молода, а ее аппарат скуден: слишком уж эти законы запутанны и сложны, слишком много различных факторов влияет на них. Основной метод здесь — сравнение слов «вручную». Лингвист берет слова, обозначающие одно и то же, из двух или трех разных языков, сравнивает их звучание и делает более или менее правдоподобное предположение о том, как могло бы звучать слово, бывшее когда-то их общим предком. Например, слово «человек», звучащее на испанском языке hombre (омбрэ), на французском homme (ом), а на итальянском uomo (уомо), происходит от латинского слова homo (хомо).
Этот метод называют сравнительным.
Он довольно мучителен и ненадежен, поскольку изначально основан на догадках. Зато правильность догадок можно с успехом проверять на статистике — эта мысль естественным образом пришла в голову главному автору статьи, опубликованной в журнале Proceedings of National Academy of Sciences, Александре Бушар-Коте, поскольку она работает в отделении статистики Университета Британской Колумбии.
«Наша программа делает то же самое, что и опытные лингвисты, применяющие сравнительный метод, — говорит она. — Разница лишь в масштабах — в том, что она оперирует куда большими массивами слов».
Программа, работающая с большими массивами слов, по словам Бушар-Коте, предоставляет исследователю дополнительные преимущества. «Вы начинаете видеть закономерности, которые в «ручном» сравнении выявить трудно. Вы можете увидеть, что некоторые звуки с большей вероятностью подвергаются изменениям, чем другие», — говорит она.
Для проверки правильности своего алгоритма ученые пропустили через него 142 тысячи словесных форм из 637 австронезийских языков, на которых говорят жители Индонезии, Мадагаскара, Филиппин, Малайзии и пр. В результате программа составила список того, как должны были звучать слова — предки современных форм.
В 85% случаев компьютерная реконструкция выдала результаты, которые уже признаны лингвистами как правильные.
С помощью программы была проверена и так называемая гипотеза функциональной нагрузки, согласно которой звуки, которые наиболее важны, чтобы отличать друг от друга два похожих слова, с наименьшей вероятностью изменяются со временем. Эта гипотеза была проверена сравнением слов на четырех языках, канадская программа подтвердила правильность гипотезы для 637 уже упомянутых языков.
Конечно, созданный в Ванкувере компьютерный алгоритм не в состоянии заменить человека — он просто позволяет ученым ускорить лингвистический анализ и предоставляет им новые возможности. Он позволяет ученым понять, как много веков назад звучала речь той или иной нации.
Возможно, этот алгоритм когда-нибудь позволит ученым замахнуться на более сложную и не менее интересную задачу — понять, как конкретный язык будет звучать спустя столетия.
Более того, эта программа может оказаться полезной не только для лингвистов, но также и для историков.
«Скажем, вас интересуют вопросы заселения Европы, — предполагает Бушар-Коте. — Если вы сможете извлечь из языка интересующей вас популяции слово, обозначающее колесо, и вы имеете информацию из других источников о том, когда оно было изобретено, то вы можете получить какое-то представление о порядке, в котором там происходили события».