Ученые из ВШЭ создали компьютерную модель, которая может отличить отличников и двоечников по их текстам в социальных сетях. Прогноз успеваемости строится на основании характерных слов и особенностей, причем его точность составила 94%. Следующим шагом авторов станет перенос модели на определение депрессивных состояний у учащихся — они сильно влияют на академические успехи. Так можно будет оценить психологическое благополучие подростков и студентов в масштабе учебного заведения. Работа поддержана грантом Российского научного фонда (РНФ) и опубликована в EPJ Data Science.
Социальные сети служат источником большого количества информации о человеке не только для его новых и старых знакомых, но и для исследователей. Последним бывает достаточно всего нескольких сообщений, чтобы многое понять об испытуемом.
«В своей новой работе мы попытались предсказать успеваемость учеников школ и вузов по их постам ВКонтакте и Твиттере. Способность к обучению — очень сложная характеристика человека. На нее влияют не только черты характера, но и психологическое благополучие, например, наличие различных нарушений. Увы, последнее не измеряется в масштабах учебного заведения, в отличие от академических успехов, которые к тому же находятся в открытом доступе. Мы разрабатываем систему, которая смогла бы по активности человека в социальной сети выявить у него психологические трудности, в частности такое состояние, как депрессия. Нельзя быть уверенным в том, как эта модель будет работать, если вначале не валидировать ее на характеристике, информация о которой широко доступна, например, на академической успеваемости», — рассказывает автор статьи и руководитель проекта по гранту РНФ Иван Смирнов, PhD, заведующий лабораторией вычислительных социальных наук Института образования Высшей школы экономики.
На первом этапе использовали посты с открытых страниц ВКонтакте (всего 130575 сообщений) от 2468 испытуемых, сдававших в 2012 году тест PISA — он позволяет оценить грамотность подростка, а также его умение применять свои знания на практике. Специалисты обучили модель сопоставлять слова из постов векторам: каждое слово имеет свое место в пространстве смыслов. Это как если бы большая комната была наполнена шарами с написанными на них словами. В определенном месте находились бы шары со схожими по смыслу понятиями, например, фамилиями писателей. Затем модель научили определять посты, принадлежащие ученикам, чьи результаты теста PISA были хорошими и не очень. Наконец, систему применили на посты студентов из сотни крупнейших вузов страны (в том числе ведущих), и сопоставили результаты с официальными данными, которые показывали средние баллы по ЕГЭ абитуриентов и выпускников учебного заведения, а также общую информацию по успеваемости. Всего использовали более миллиона постов от 38833 пользователей.
В ходе эксперимента модель выявила несколько признаков, характерных для учащихся с хорошей и плохой успеваемостью. Тексты «отличников» как правило объемные, с длинными, а также иностранными словами, с богатым языком. Такие ученики чаще обсуждают физику, литературу (в текстах встречаются фамилии и имена писателей, героев книг) и склонны использовать выражения, описывающие мыслительный процесс («думаю», «считаю» и так далее). Для «двоечников» характерны ошибки, смайлы, восклицания и слова, написанные заглавными буквами. Они чаще обсуждают гороскопы, военную службу и ДТП.
«На основании этих «правил» наша модель с точностью до 94% выявляла учащихся с высокой и низкой успеваемостью по постам ВКонтакте. Также мы попробовали применить ее и к коротким текстам в Твиттере — успешно, — рассказывает Иван Смирнов. — С одной стороны, такой подход может быть полезен, в том же выявлении депрессии, влияющей на учебные достижения. С другой стороны, наши результаты лишний раз показали, насколько уязвима конфиденциальность пользователя в социальной сети. Люди переживают из-за вездесущих камер и систем распознавания лиц, однако, даже такой, казалось бы, незначительный цифровой след, как короткий текст, может стать источником информации, которую человек даже не собирался раскрывать».