Сотрудник Калифорнийского университета в Лос-Анджелесе (UCLA) Роуджа Бандари представила алгоритм, позволяющий предсказать с точностью до 84%, будет ли та или иная новость популярной в Twitter или в других социальных сетях. Бандари, защищающая диссертацию по электротехнике, разработала этот алгоритм совместно с двумя инженерами — Ситарамом Асуром и Бернардо Хуберманом из лабораторий Hewlett Packard, где она работала в качестве интерна. Доклад с описанием алгоритма был представлен на Международной конференции по внедрению методов искусственного интеллекта в социальных сетях и медиа и опубликован на сайте Hewlett Packard Labs.
Используя методы искусственного интеллекта, инженеры проанализировали миллионы сообщений в «Твиттере», связанных с более чем 40 тысячами новостей СМИ. Алгоритм сумел определить с 84-процентной точностью, является ли новость «популярной» (более ста твитов), «среднепопулярной» (20–100 твитов) и «непопулярной» (менее 20 твитов).
Таким образом,
этот алгоритм можно использовать для достаточно точного прогноза популярности той или иной новости в сети «Твиттер» еще до того, как она будет опубликована.
Изучая проблему прогнозирования информационных трендов в соцсетях, Ситарам Асур и Бернардо Хуберман из HP Labs ранее показали, что можно с достаточно высокой точностью предсказывать динамику распространения данных в сети «Твиттер». Два года назад Бандари, работающая под руководством профессора UCLA Ввани Ройчхоудхури, также получила обнадеживающие результаты, прогнозируя распространение информации в «Твиттере» во время общественных протестов 2009 года в Иране, вызванных фальсификациями на выборах.
Объединив усилия, они сделали следующий шаг и разработали предсказательный алгоритм, высокая точность которого удивила самих исследователей.
Одним из главных факторов, влияющих на популярность новости в «Твиттере», остается источник информации, однако, как показал анализ, читательская популярность того или иного СМИ и его популярность в «Твиттере» — это две большие разницы, и у статей из Mashable (популярного агрегатора новостей с упором на социальные медиа), TechCrunch (новостной блог-ресурс, посвященный описанию стартапов и новых технологий) или The Huffington Post (популярное американское онлайн-СМИ либеральной направленности) шансов набрать солидную читательскую аудиторию всегда больше, чем у новостей от таких традиционных медиатяжеловесов, как CNN, The New York Times, Los Angeles Times или Reuters.
Еще одним параметром, исследованным авторами доклада, стал так называемый «субъективный классификатор новости».
В качестве моделей, описывающих разный стиль подачи информации, были использованы расшифровки высокорейтинговых разговорных радиошоу американского консерватора Раша Лимбо, известного своим субъективным стилем, и популярного либерального комментатора Кейта Олберманна, признанного образца «непредвзятой журналистики».
К удивлению исследователей, субъективный классификатор не оказывает почти никакого влияния на распространение новости в сети Твиттер. Иначе говоря, популярность новости не зависит от того, будет она изложена эмоционально, с использованием оригинальных риторических приемов и «авторского» языка, или холодно и бесстрастно. «Если в статье вы используете «горячие» словечки с целью произвести больший информационный эффект, в «Твиттере» это не сработает, как не сработает и намеренно бесстрастный стиль», — резюмируют Бандари в своих комментариях к докладу.
Тема новости также не является надежным классификатором ее популярности в соцсети.
Самую большую положительную корреляцию демонстрируют здесь узкоспециализированные новости на тему новых технологий, которые пользуются наибольшей популярностью в «Твиттере». Но если новостная статья затрагивает более одной темы, предсказать ее популярность становится все сложней. Отчасти это может быть связано и с дефектом предсказательного алгоритма, но та же прогностическая неопределенность, к удивлению авторов доклада, постигла и «мононовости» — о знаменитостях и крупных компаниях. Возможно, здесь работают некие внешние факторы, связанные с динамикой общественного мнения, которые алгоритм, ограниченный данными, циркулирующими только в сети «Твиттер», просто «не видит».
Последнее накладывает известные ограничения на предсказательную методику, предложенную авторами, о чем они тоже пишут.
Тем не менее высокая предсказательная точность, показанная алгоритмом, может сделать его полезным дополнительным инструментом для блогеров, журналистов и организаций, заинтересованных в продвижении своей информации через «Твиттер», а также другие социальные медиа, хотя метод предсказания популярности в их случае может отличаться.
«Если вы работаете на крупное СМИ, долго доминировавшее на рынке информации, то сейчас правила изменились: рассчитывать на старую аудиторию уже нельзя — вы обязаны конкурировать с новостными ресурсами следующего поколения, работающими по другим принципам. Так, уже не имеет большого значения, насколько эмоционально, субъективно или ярко вы аргументируете свою позицию: людей прежде всего интересует конкретная информация, а не то, как вы ее преподносите. Навязчивый стиль уже не гарантирует вам большее внимание», — резюмирует Бандари.