Бунт между строк

Компьютерный анализ сообщений в СМИ спрогнозировал арабские бунты

Николай Подорванюк
Предсказать арабские бунты нынешнего года или установить с большой точностью местонахождение Усамы бен Ладена можно было на основе компьютерного анализа сообщений СМИ.

Предсказать бунты в Египте или Ливии можно было, уделив достаточное внимание новостям. Это в своей научной работе продемонстрировал Калев Леетару, сотрудник Института вычислений в области гуманитарных наук и социологии при Университете штата Иллинойс. Он использовал суперкомпьютер Nautilus SGI UV, принадлежащий Национальному институту вычислительных наук, для масштабного анализа сообщений СМИ. Подробности этого анализа и его результаты Леетару опубликовал в рецензируемом журнале First Monday, который издает его же университет.

В своей работе Леетару использовал более 100 миллионов сообщений и статей, которые были получены из сводок информационных агентств, интернета и архива газеты The New York Times, начиная с 1946 года. Эти сообщения были систематизированы по двум параметрам: настроение публикации и место, откуда приходили сообщения. Настроение публикации определялось по наличию в материалах таких слов, как «ужасный», «испуганный», «ужасающий», «хороший» и «прекрасный».

Анализ текста позволял определить географическое место, где происходят описываемые события.

Был произведен также анализ элементов сообщений, в ходе которого возникла карта из 100 триллионов логических взаимосвязей.

Для каждой из стран арабского мира, где в начале нынешнего года происходили бунты, Леетару построил графики, на которых хорошо заметно увеличение негативных публикаций (то есть ухудшение общественной атмосферы) накануне возникновения беспорядков.

По словам Леетару, его система выдает более точные прогнозы развития общественной ситуации, чем прогнозы, которые готовились тогда американскими разведслужбами для правительства США. В качестве подтверждения своих слов ученый приводит события в Египте.<1>

«Тот факт, что президент США выступал в поддержку Мубарака, свидетельствует, что даже анализ на самом высоком уровне указывал: Мубарак удержится у власти, — заявил Леетару в интервью «Би-би-си». — Вероятно, это объясняется тем, что такой анализ проводят эксперты, которые потратили 30 лет на изучение Египта, а за 30 лет с Мубараком ничего не происходило».

Построенные ученым графики для таких стран, как Тунис и Ливия, продемонстрировали к началу 2011 года снижение настроения публикаций, посвященных этим странам. Причем если в случае с Тунисом показатель настроения плавно снижался, начиная с 1997 года, то в случае с Ливией падение произошло буквально за один месяц — январь 2011 года. Напротив, аналогичный график для Саудовской Аравии не выявил никакого отрицательного тренда, и действительно: в этой арабской стране в нынешнем году не было никаких бунтов. В качестве еще одного примера успеха своего метода Леетару продемонстрировал график настроений для публикаций, связанных с Сербией. В этой стране показатель настроений стал резко снижаться, начиная с 1996 года (когда произошло объединение вооруженных формирований сепаратистов в Армию освобождения Косова), и достиг своего минимума, который продолжался с 1998 по 2000 год (этот период включил в себя такие события, как ожесточенные бои в Косово, бомбардировки НАТО югославских городов и переход Косово под управление ООН).

Калев Леетару подчеркивает, что его метод дает не точное предсказание того, что и когда произойдет, а является характеристикой приближающегося кризиса. «Значение работы заключается в предупреждении изменения настроений в обществе, что может позволить избежать серьезных последствий в том случае, когда внезапно начнутся какие-то противостояния», — приводит слова ученого Nature News. Политолог Тома Садефа из Швейцарского федерального института технологий в Цюрихе назвал статью Леетару «долгожданным дополнением к политологии» — науке, которая «очень мало уделяла внимания обнаружению ранних сигналов» будущих социальных потрясений.

Но предсказание социальных потрясений является не единственным интересным результатом, который можно получить из масштабного анализа сообщений СМИ. Так, Леетару продемонстрировал, что анализ информации, посвященной лидеру «Аль-Каиды» (организация запрещена в России) Усаме бен Ладену, давал точное указание на то, что «террорист номер один» находится не в Афганистане, а в северном Пакистане, и позволял сузить район его поисков до территории радиусом 200 км. <2>Впрочем, подобное предположение было сделано американскими учеными в 2009 году другим методом. В ходе занятий по курсу дистанционного изучения экосистем Гиллеспи и Ангью придумали для студентов следующее задание: используя известные данные о перемещении Усамы бен Ладена, сделать вероятностный прогноз его текущего месторасположения. Для построения модели нужно было использовать географическую теорию «островной биогеографии», которая гласит: виды, обитающие на большом острове, имеют больше шансов на то, чтобы выжить, чем те виды, которые обитают на небольшом острове. «Если вы пытаетесь выжить, то вы перемещаетесь в регион с низким темпом вымирания, например, в большой город. Так поступают птицы, так делают и террористы. Мы предположили, что бен Ладен не мог быть в маленьком городе, где люди могли бы увидеть его и сообщить о его местонахождении», — объяснял тогда Гиллеспи. Согласно модели, построенной студентами, бен Ладен должен был находиться в пакистанском городе Парачинар, а вероятность того, что бен Ладен находится в городе Абботтабат (от Парачинара этот город разделяют несколько сотен километров), где в итоге и был убит «террорист № 1», составила 80 процентов.

Кроме того, Леетару попробовал применить свой анализ в рамках «цивилизационного подхода» и определил, сколько и какие цивилизации находятся сейчас на нашей планете. Данная работа была проведена отдельно по сообщениям СМИ со всего мира за период с 1979 по 2009 года и по публикациям в газете The New York Times за период с 1945 по 2005 года.<3>

Анализ мировых СМИ показал, что мир разделен на шесть цивилизаций, обусловленных, как видно из иллюстрации, географическим положением и историческими связями. Так, например, Испания попадает в одну категорию с США и Южной Америкой, а Франция и Португалия находятся в одной группе с Африкой. Достаточно неожиданный кластер формируют Канада, Великобритания, Норвегия и весь Ближний Восток. Россия попадает в одну цивилизацию вместе со всей остальной Европой (за исключением вышеперечисленных европейских стран). Еще одну цивилизацию составили Австралия и Юго-Восточная Азия, а самой малой с точки зрения территории цивилизацией стала Индия и несколько ее ближайших соседей.

Анализ газеты The New York Times показал совершенно иные результаты.

Согласно анализу одной из самых уважаемых в США газет, мир разделен на пять цивилизаций. Самая многочисленная из них — это США, большая часть Европы (в том числе Великобритания, Франция, Италия и Германия), Россия, юго-запад Азии (в том числе Ирак, Иран и Афганистан) и большая часть Африки. Немного необычную по формированию цивилизацию составили Финляндия, Швеция, Норвегия, Дания, Бельгия, Испания, Португалия, Индия, Южная Америка (кроме Чили) и некоторые страны Африки. Самую малую по территории цивилизацию составили страны Ближнего Востока. Самой малочисленной по количеству стран стала цивилизация, которую составили Канада, ЮАР и Нидерланды. А цивилизацию, которую составили Австралия и Юго-Восточная Азия, дополняют также Мексика, Чили, Мадагаскар, Исландия и Гренландия (хотя Дания, которой принадлежит Гренландия, входит в другую группу).

То, что анализ The New York Times и анализ СМИ по всему миру дали разные результаты, демонстрирует, по мнению автора исследования, насколько разные картины мира представляют своим аудиториям СМИ различных стран.

При этом анализ всех мировых СМИ тоже является не совсем объективным, так как во многих странах присутствует «врожденная предвзятость по отношению к Западу», отмечает Леетару.

Как рассказал ученый, следующим этапом станет испытание системы на уровне города с целью исследования взаимодействия различных групп населения.