Они меняют лица и вкрадываются в доверие к клиентам и даже сотрудникам служб безопасности. Злоумышленник в чужом обличии может вмешиваться в предвыборную борьбу, манипулировать мнением миллионов.
После одной из предыдущих статей рубрики «Цифровая реальность» наши читатели стали задавать вопросы, неужели мошенники действительно могут настолько правдоподобно преобразиться, что их никто не сможет отличить от того, чьё лицо они используют. Мы решили вновь обратиться к этой теме и подробно разобраться, на что способны современные технологии. Помогать в этом нам будет IT-предприниматель и специалист по кибербезопасности Виктор Мартынов.
– Начну с пояснения: в материале о нейросетях я упомянула случай, о котором узнала в чате одного из банков. Мошенник при помощи дипфейка обманул сотрудников, заставил поменять данные и какое-то время безнаказанно пользовался средствами жертвы, пока мужчина не обнаружил подлог. Этот-то факт и напугал читателей больше других. Но давайте, прежде чем дальше запугивать или успокаивать аудиторию, уточним, что же такое дипфейк и откуда он появился.
–Термин deepfake был придуман в 2017 году одним из пользователей платформы Reddit – он написал пост о своём опыте применения технологий глубокого обучения (deep) для замены лиц в поддельных (fake) видео. Помимо подмены реальных людей и имитации голоса, технология deepfake позволяет изменять текст документов и графику на статических изображениях. Однако чаще всего под дипфейками имеются в виду гиперреалистичные фальшивые видео, неотличимые невооруженным глазом от настоящих.
– И как же создаются дипфейки?
– Для генерации дипфейков чаще всего используются два типа нейросетей – вариационные автоэнкодеры (VAE – модель, состоящая из двух нейросетей. Одна является кодировщиком, а другая – декодировщиком. Первая анализирует данные, а вторая на основе полученного массива выдает нечто похожее – прим. ред.) и генеративно-состязательные сети (GAN). Задачу по замене, скажем, лица они решают так: VAE сжимают изображение входного лица в компактное латентное представление, а затем восстанавливают из него новое лицо на основе обучающих данных. Таким образом можно «пересадить» черты одного лица на другое.
GAN используют два конкурирующих модуля – генератор создает поддельные изображения лиц, а дискриминатор пытается отличить их от реальных. В процессе обучения генератор учится создавать все более правдоподобные подделки.
Для создания полностью поддельных видео применяются более сложные модели: пиксельные свёрточные сети, обученные генерировать видео напрямую из шумовых векторов или текстовых описаний, пиксель за пикселем.
Видео-трансформеры, которые учатся кодировать входное видео в латентные векторные представления, а затем декодируют новые уникальные видеопоследовательности из текста или изображений.
Диффузионные видеомодели, создающие видео путём постепенных восстанавливающих итераций из зашумленных видеопоследовательностей. Эти модели способны генерировать по текстовым описаниям короткие реалистичные видеоклипы с высоким разрешением. По сравнению с дипфейками, основанными на реальном видеоматериале, результаты работы этих моделей пока что менее убедительны. Но технологии развиваются стремительно: судя по феноменальному уровню реализма модели Sora от Open AI, генерация синтетических видео очень скоро выйдет на новую ступень эволюции.
– Судя по Вашему рассказу, дипфейки – это изобретение серьёзных людей, работа известных компаний. Думается, занимаясь такими разработками, они вряд ли ставили цель помочь аферистам.
– На самом деле, у этой технологии есть огромный позитивный потенциал – коммерческий, научный, образовательный. С помощью GAN можно, например повысить качество и восстановить фрагменты изображений. Это могут быть архивные фото и видео, древние рукописи, повреждённые шедевры живописи, результаты астрономических наблюдений.
Можно создать реалистичный (или, напротив – фантазийный) цифровой аватар. Такие аватары пригодятся для общения с пользователями в службе поддержки, для создания образовательного и развлекательного контента. Сгенерировать фотореалистичные изображения любых дизайнерских идей и концептуальных моделей – от одежды до зданий на фоне окружающего ландшафта.
Дипфейк позволяет реалистично омолодить, состарить и даже «воскресить» актеров в кино и сериалах. Сделать впечатляющие визуальные эффекты для фильма, упростить процесс создания анимации. Виртуально примерить одежду, аксессуары, предметы интерьера, варианты дизайна и ремонта. Создать 3D-модель объекта на основе разрозненных фрагментов. Это может значительно упростить работу криминалистов, палеонтологов, археологов.
– И как же так получилось, что полезная технология «перешла на тёмную сторону»?
– Ранние дипфейки можно было отличить от настоящих видео невооружённым взглядом – по артефактам, неестественной мимике, несоответствиям в цвете и освещении, разнице в пропорциях фальшивой головы и реального тела. Новейшие достигли такого высокого уровня реалистичности, что их невозможно отличить от настоящих людей и объектов без использования специальных методов анализа.
Помимо совершенствования технологий, выводу дипфейков на новый уровень способствуют повсеместное распространение мощных чат-ботов на базе LLM (больших языковых моделей); доступность LAM (больших аудио моделей) для клонирования голоса и озвучивания текста;
Совместное использование ИИ-моделей для генерации видео, клонирования голоса и озвучивания текста даёт цифровому аватару возможность вести осмысленный диалог, имитируя стиль речи, тон, акцент и эмоции. Сегодня при неправомерном использовании дипфейки уже представляют собой серьёзную угрозу для общества. Злоумышленники могут использовать их для дезинформации, пропаганды, создания политических конфликтов; манипуляции общественным мнением в предвыборных кампаниях и дискредитации политических оппонентов; нечестной борьбы с конкурентами и чёрного пиара; создания нелегального и непристойного контента с использованием внешности знаменитостей (или, того хуже, несовершеннолетних); фальсификации доказательств, вымогательства и шантажа; мошенничества на платформах, которые используют VideoID и видеоинтервью для аутентификации личности.
– Как мошенники используют дипфейки?
– Самые популярные сейчас виды мошенничества связаны с подделкой голоса. Образцы голоса злоумышленники берут из интервью, YouTube-видео, голосовых сообщений в мессенджерах. Сервисов по клонированию голоса много, некоторые из них выдают результат, который отличим от реального голоса только отсутствием запинок, придыханий и хмыканья.
Также аферисты заранее создают поддельные видео, чтобы фальсифицировать VideoID для активации сим-карт или пройти верификацию на платёжных сервисах и криптобиржах. Уже отмечены случаи, когда мошенники генерировали эмоциональные ролики, мотивирующие зрителей на пожертвования. Недавний тренд – фальшивые видео с участием цифровых клонов звёзд и топ-менеджеров. Фейковые знаменитости и популярные блогеры в этих роликах предлагают солидный денежный приз за переход по фишинговой ссылке, а поддельные руководители финансовых отделов компаний и менеджеры банков дают указания сотрудникам перевести деньги на подставной счёт.
– Выходит, в скором времени злоумышленники начнут повсеместно использовать видео-дипфейки в реальном времени. Есть ли способ распознать жуликов и предотвратить неприятности?
– Приложения для подделки видео в реальном времени уже есть, но далеко не все из них могут пройти проверку на резкие движения. Если собеседник вызывает подозрение, нужно попросить его быстро покрутить головой вправо-влево и вверх-вниз, или помахать руками перед лицом. Резкие движения сбивают нейросеть с толку, видео искажается, на мгновение может стать видимым реальное лицо.
Есть и автоматические способы обнаружения дипфейков: фотоплетизмография (используется в FakeCatcher от Intel) обеспечивает 96% точность определения, а технология анализа отражений и световых бликов в глазах – 94%. Другие перспективные методы выявления сгенерированного контента основаны на комплексном статистическом анализе, который выявляет невидимые человеческому глазу артефакты, и на использовании глубоких свёрточных сетей, способных обнаружить аномалии, типичные для синтетических изображений и видео.
– Давайте подведём итог, проговорим все «за» и «против».
– Как и любую другую мощную технологию вроде расщепления атома, дипфейки можно использовать и во зло, и во благо. Позитивный потенциал GAN-сетей значительно перевешивает криминальный – это одно из самых перспективных направлений в разработке ИИ. Но в то же время этой технологии, как и всей ИИ отрасли в целом, необходимо продуманное законодательное регулирование. В противном случае мы скоро обнаружим, что живём в обществе, где возможности для манипуляций с реальностью настолько обширны и убедительны, что синтетический контент невозможно отличить от настоящего, а уровень достоверности информации близок к нулю.