Как веб-сайты становятся популярными? Почему одни страницы становятся популярными очень быстро, другие наращивают число посетителей постепенно, а третьи вообще остаются малоизвестными? Есть ли математическая закономерность в этих процессах?
Этими вопросами задались ученые из США (Университет Индианы) и Италии (Турин). Они проанализировали два огромных массива данных — статьи «Википедии» и интернет-пространство целой страны — Чили.
Их исследование показало, что нарастание онлайн-популярности наступает не в результате постепенного накопления числа посетителей страницы, а происходит резкими вспышками.
Такое поведение свойственно так называемым критическим системам — к ним относятся крахи фондовых рынков и ряд природных явлений. Работу математиков публикует Physical Review Letters. Они также разработали модель, которая описывает динамику онлайн-популярности.
«Популярность в интернете — непредсказуемая вещь, внимание публики резко перемещается от одного ресурса к другому. Статистически эти колебания подобны землетрясения и лавинам», — пояснил первый автор работы Джейкоб Раткевич из Университета Индианы.
Онлайн-информация, резко становящаяся популярной, оказывает огромное влияние на формирование позиции общества, культуру и политику.
Кроме того, реклама, размещенная на сайте, «ставшем звездой», становится неизмеримо прибыльней всякой иной. Конечно, каждый сайт стремится стать как можно более посещаемым и сохранить во времени своих читателей, однако практика показывает, что «гиперпосещаемость» почти никогда не удается удержать.
В первом изученном примере — посещаемости «Википедии» — ученые проанализировали два параметра: число кликов, ведущих на каждую статью, а также число ссылок на нее, опубликованных на внешних ресурсах. В более ранних работах утверждалось, что распределение популярности веб-страниц подчиняется степенной зависимости. Однако судить о динамике популярности каждой отдельной страницы было сложно, так как информации о числе посетителей и ссылок в каждый момент времени не было. Авторы работы восполнили этот пробел: они обработали информацию о трафике от миллионов страниц. Всего были обработаны три миллиона статей «Википедии» (2001—2007 годов) с временным разрешением в одну секунду, три миллиона статей «Википедии» (2008—2010 годов) с временным разрешением в один час и три миллиона интернет-страниц домена Чили (.cl) с разрешением один год (2002—2006 годов). Разрешение показывает частоту «сетки», наименьший период времени, через который производится вторичное детектирование посещаемости страницы. Для этого использовались внутренние данные «Википедии», а также информация чилийского поисковика TODOCL.
Оказалось, что почти все страницы переживали вспышку популярности в самом начале своего существования. Затем некоторые страницы действительно показывали стабильный экспоненциальный рост, однако большая часть в среднем сохраняла небольшую посещаемость, ее рост и падение происходили резкими скачками.
Распределение скачков посещаемости сайтов, как оказалось, подчиняется «закону тяжелого хвоста», также характерного для критических систем.
Такое распределение чрезвычайно неравномерно: большая часть точек характеризуется небольшими значениями (в данном случае это число посетителей в день), и лишь малая часть — очень большими. Однако именно эти всплески определяют суммарный трафик: они столь велики, что каждый из них на порядки превышает суммарную величину посещаемости «неудачных дней». Однако динамика этих «всплесков» отличается от динамики популярности «горячей» новости, подчеркивают ученые. Если внимание, обращаемое на новость, очень быстро затухает, то «всплески» популярности сайтов следуют сериями, и это в итоге влияет на повышение общей популярности страницы.
Математики разработали классификационную модель, которая качественно воспроизводит часть особенностей «всплескового» поведения популярности веб-сайтов, однако для более качественного описания «эффекта тяжелого хвоста» им пришлось добавить в модель специальный «реклассификационный механизм». Реклассификация случайным образом «вздувает» популярной той или иной страницы. Парадоксально, но именно такой механизм позволяет приблизить модель к описанию экспериментальных данных.
«Несмотря на то что модель имеет в больше степени описательный характер, мы надеемся, что более глубокое понимание процесса развития популярности веб-сайта приведет в конечном итоге к развитию методов прогнозирования возникновения популярности именно в упреждающем смысле.
Однако искусственно повысить популярность какого-то конкретного сайта с помощью нашего механизма не удастся», — подытожил Раткевич.
Однако ученые уже готовы предоставить рецепт популярности. Анализ использования социальных сетей в формировании популярности сайтов показал, что они вполне пригодны как минимум для создания временного всплеска посещаемости. «Бомбы из твиттера» взлетают в рейтингах, как ракеты, и могут легко забраться на самую верхушку результатов поиска Google», — отмечают исследователи.