Исследователи Курчатовского института разработали способ прогнозирования дальнейшего развития пандемии коронавируса с помощью ИИ и анализа постов в Twitter. Научная статья предоставлена в распоряжение «Газеты.Ru».
Отмечается, что ранее различные языковые модели уже использовались для обнаружения на основе постов в Twitter вспышек других инфекционных заболеваний, вызванных, например, вирусами Эбола и Зика. Однако все они были обучены на английском языке.
Нейросеть, созданная в Курчатовском институте, была обучена на русском языке. Для этого исследователи выбрали 10 тыс. русскоязычных постов, в которых упоминались такие слова как «коронавирус», «пандемия», «ПЦР-тест» и др. Все они были опубликованы в период с 1 марта 2020 года по 1 марта 2021 года.
После обучения нейросеть может находить целевые твиты пользователей, которые могли быть заражены COVID-19.
Результаты работы ИИ сравнили с официальной статистикой за указанный период. Оказалось, что количество инфицированных по России, отфильтрованных нейросетью в Twitter, аналогично официальной статистике случаев заболевания COVID-19 в России за тот же временной период.
Исходя из этого исследователи считают, что созданная ими модель может быть использована для дальнейшего прогнозирования динамики развития эпидемии, а также для выявления новых симптомов и побочных эффектов, описываемых пользователями социальных сетей.
Один из авторов исследования, кандидат физико-математический наук Александр Сбоев рассказал «Газете.Ru», как именно система может предсказать развитие пандемии.
«Сперва собираются твиты, они размечаются на наличие степеней упоминания пандемии и коронавируса. Опираясь на собранную информацию, официальные данные и прогнозы специалистов, мы пытаемся выудить прогноз. То есть мы стараемся собрать опережающую информацию по развитию пандемии. Тут важно сказать, что мы таким образом можем предсказать порядка четырех следующих дней», – объяснил Сбоев.
Технологически для этого используется сбор интернет-ресурсов и формирование интеллектуальных нейросетевых моделей. Они, как рассказал собеседник «Газеты.Ru», выделяют твиты по наличию упоминаний о симптомах коронавируса у пользователя или положительного ПЦР-теста.
По его словам, интернет-сообщество быстрее рефлектирует на возникновение тех или иных симптомов коронавируса и на пандемию в целом, это и проявляется в интернете. Именно этот факт помогает спрогнозировать развитие пандемии.
Однако у модели есть и недостаток. Так, она не может определить, насколько пост правдив.
«Конечно, она это не определяет, – отметил Сбоев. — В данном случае, мы опираемся только на то, что пользователь пишет в интернете. Если он написал, что плохо себя чувствует, у него температура, и вчера он ходил к зараженному, — то мы его вставим в категорию заболевших. Или, например, если он рассказал о положительном ПЦР-тесте, — он попадает в ту же категорию. Наша статистика строится только на основании того, что человек пишет. Однако даже так результаты работы нейросети очень схожи с официальной статистикой».
Инженер лаборатории легких материалов и конструкций Санкт-Петербургского политехнического университета имени Петра Великого (СПбПУ) Дмитрий Курушкин рассказал «Газете.Ru», что разработанная методика может быть использована не только для классификации твитов касательно COVID-19, но и расширена для классификации общественных мнений по другим тематикам.
«Однако остается вопрос валидности корреляции собранной статистики и болезни. В статье представлен график, в котором волне пандемии предшествует волна твитов. Таким образом, авторы связывают количество твитов с количеством заболевших. При этом предполагается, что отслеживание количества твитов о коронавирусе поможет предсказать новую волну. Если бы эти значения действительно физически коррелировали, то это бы означало, что твиты влияют на заболеваемость. Однако это не так», – заявил Курушкин.
По его словам, корреляция роста количества твитов о болезни перед ростом волны заболеваемости скорее всего случайность, так как физически эти величины не связаны.
«Поэтому применение разработанной в статье нейросети для предсказания развития пандемии следует еще тщательно обдумать разработчикам совместно с командой опытных эпидемиологов», – отметил собеседник «Газеты.Ru».
Заведующий лабораторией анализа показателей здоровья населения и цифровизации здравоохранения МФТИ (вуз – участник программы «Приоритет 2030») Станислав Отставнов отметил важность интернет-исследования для получения новой информации о коронавирусе.
«Пандемия COVID-19, к которой человечество оказалось не готово создала предпосылки для еще большего усиления роли интернет-исследований. Ограничительные меры, попытки слежения за инфицированными, трехнедельные карантины, штрафы привели к тому, что в некоторых ситуациях люди с симптомами COVID-19 старались по возможности дистанцироваться от контактов с официальной медициной, однако в интернете они писали о своем самочувствии», — заявил собеседник «Газеты.Ru».
По его словам, в этой ситуации такие нестандартные способы получения информации, как анализ поисковых запросов и контента в соцсетях, стали весьма полезными.
«С их помощью можно оценить масштабы пандемии, выявить побочные эффекты применяемых лекарственных препаратов, идентифицировать элементы «постковидного синдрома». Вполне логично, что в этих задачах успешное применение находят именно нейросети», — заключил Отставнов.