Группа исследователей из Швейцарской высшей технической школы Цюриха (ETH Zurich) и Anthropic выяснила, что большие языковые модели (LLM) способны выявлять личности пользователей, скрывающихся за анонимными аккаунтами в интернете. Согласно отчету, такие методы могут работать в больших масштабах и с высокой точностью.
Это ставит под сомнение традиционную роль псевдонимности как базовой формы защиты конфиденциальности, считают аналитики.
Общая схема деанонимизации пользователей с помощью LLM. Источник: ETH Zurich.
В опубликованной научной статье говорится, что ИИ способен сопоставлять аккаунты и сообщения пользователей на разных платформах. При этом модели анализируют свободный текст и косвенные признаки.
В экспериментах показатель так называемой «полноты» — доли успешно деанонимизированных пользователей — достиг 68%. Что касается точности идентификации, то она доходила до 90%.
В рамках исследования ученые использовали несколько наборов данных из публичных источников.
Один из экспериментов связывал профили пользователей Hacker News и LinkedIn через межплатформенные ссылки. После этого из сообщений удаляли все прямые идентификаторы и анализировали их с помощью языковой модели.
Другой метод использовал данные, похожие на набор Netflix Prize, содержащий микроидентификаторы вроде предпочтений и истории действий пользователей. Такие данные позволяют восстановить личность человека даже при отсутствии прямых указаний на его имя.
Пример идентификации анонимного аккаунта на основе извлеченных признаков. Источник: ETH Zurich.
В отдельных тестах исследователи анализировали активность пользователей Reddit.
Например, обсуждение фильмов в нескольких тематических сообществах позволяло выявлять часть пользователей с высокой точностью. При обсуждении более десяти фильмов точность идентификации достигала 90% для почти половины пользователей и 99% для примерно 17%.
По словам одного из авторов исследования Саймона Лермена, ключевое отличие современных методов в том, что LLM способны анализировать свободный текст и постепенно выстраивать полную картину личности человека. Ранее для таких задач требовались структурированные базы данных и сложные алгоритмы сопоставления.
Исследователи предупреждают, что такие технологии могут сделать массовую деанонимизацию дешевой и быстрой. Это открывает возможности для доксинга, преследования и создания детальных маркетинговых профилей пользователей.
Авторы работы считают, что платформам следует ограничивать массовый доступ к пользовательским данным через API.
Кроме того, они предложили отслеживать автоматический сбор. Разработчики ИИ также могли бы внедрять механизмы, которые предотвращают использование моделей для целенаправленной деанонимизации, считают ученые.
В противном случае, отмечают авторы, подобные инструменты могут использоваться государствами для выявления онлайн-критиков. При этом компании будут использовать их для гипертаргетированной рекламы, а злоумышленниками — для создания масштабных мошеннических схем.
Напомним, мы писали, что США использовали ИИ-модель Anthropic для атаки на Иран.
Сообщение Конец анонимности? ИИ-модели научились раскрывать личности пользователей соцсетей появились сначала на INCRYPTED.


