Российские ученые разработали алгоритм, который по сообщениям в социальных сетях может отличать отличников от двоечников с точностью до 94%. Статью с результатами его работы опубликовал научный журнал EPJ Data Science, кратко об этом пишет пресс-служба Высшей школы экономики.
“Наша модель с точностью до 94% выявляла учащихся с высокой и низкой успеваемостью по постам “ВКонтакте”. Также мы успешно применили ее и к коротким текстам в “Твиттере”. Такой подход может быть полезен и для выявления депрессии, влияющей на учебные достижения”, – рассказал автор работы, заведующий лабораторией вычислительных социальных наук Института образования НИУ ВШЭ Иван Смирнов.
В последние десять лет социологи, математики, физики и даже эпидемиологи активно изучают, как информация распространяется через социальные сети и как подобные данные можно использовать для того, чтобы узнавать о чертах характера и поведении пользователей подобных сайтов.
К примеру, два года назад американские социологи создали систему, с помощью которой можно было по сообщениям в Facebook оценивать вероятность развода. Их российские коллеги научились вычислять семейное положение пользователей и пол человека по его активности в социальных сетях. Аналогичным образом британские ученые создали алгоритмы, которые оценивали уровень IQ и пять основных черт личности человека по его лайкам.
Смирнов и его коллеги задумались о том, можно ли с помощью подобных технологий определить успеваемость школьников и студентов, а также оценить, какие проблемы могут мешать им успешно учиться.
Что характеризует двоечников и отличников
Для этого ученые собрали и изучили сообщения, которые на своих страницах в “ВКонтакте” оставляли примерно 2,4 тыс. подростков, проходивших в 2012 году специальный тест на оценку грамотности и способности применять знания на практике в рамках Международной программы по оценке образовательных достижений учащихся (PISA).
Ученые использовали эти данные, чтобы натренировать нейросети, которые могут анализировать смысловое содержание и стилистику текстовых сообщений в социальных сетях и сопоставлять их с типичным уровнем образования и успеваемости людей, для которых характерны подобные интересы, знания и стиль написания.
После того, как нейросеть научилась определять двоечников и отличников достаточно точно, Смирнов и его коллеги проверили работу алгоритма на наборе данных, полученных при анализе сообщений студентов из ста крупнейших вузов России. Благодаря этому они подтвердили точность предсказаний нейросети и выделили несколько типичных черт двоечников и отличников.
В частности, алгоритм обнаружил, что для последних были характерны длинные тексты, связанные с литературой, физикой и описанием мыслительных процессов. Вдобавок у них богатый лексикон, в котором часто присутствуют иностранные слова. Для двоечников характерны ошибки, смайлы, восклицания и слова, написанные заглавными буквами. Они чаще обсуждают гороскопы, военную службу и ДТП.
“Наши результаты лишний раз показали, насколько уязвима конфиденциальность пользователя в социальной сети. Люди переживают из-за вездесущих камер и систем распознавания лиц, однако, даже такой, казалось бы, незначительный цифровой след, как короткий текст, может стать источником информации, которую человек даже не собирался раскрывать”, – подытожил Смирнов.
Для того, чтобы быть в курсе новостей в сфере науки, подписывайтесь на наш Telegram-канал.
Сообщить об опечатке
Текст, который будет отправлен нашим редакторам: