Как понять, что в видеозвонке с вами говорит не человек, а дипфейк

Опубликовано: 29.04.2026

История про дипфейки в видеозвонках перестала быть теорией. Весной 2024 года сотрудники британского филиала крупной multinational corporation перевели 25 миллионов долларов на счета мошенников после двадцатиминутного разговора с «главным бухгалтером» и несколькими коллегами. Все участники встречи были сгенерированы. Подобные кейсы происходят регулярно, и масштабы варьируются от корпоративного шантажа до персонального вымогательства.

Отдельная категория таких атак — создание порнографического контента с чужим лицом. Схема часто строится на видеозвонке: жертва общается с привлекательным собеседником, происходит интимная часть разговора, а потом появляются угрозы распространить скомпилированные ролики. Понять, что по ту сторону экрана работал алгоритм, а не живой человек, можно — если знать, на что смотреть.

Анатомия обмана: как устроены дипфейки в реальном времени

Генерация реалистичного видео в ходе звонка требует серьёзных вычислительных ресурсов. Раньше это было уделом студий с фермы GPU, сейчас достаточно мощной видеокарты потребительского класса и подходящего ПО. Существуют как открытые решения вроде SlyGen, так и закрытые коммерческие продукты, которые мошенники используют по подписке или покупают на теневых форумах.

Технически процесс выглядит так: исходное видео с реальным человеком (часто украденное из соцсетей) подаётся на вход модели, которая заменяет лицо на целевое. В реальном времени это происходит с задержкой в несколько сотен миллисекунд — достаточно быстро, чтобы не вызывать подозрений при нормальном соединении. Голос синтезируется отдельно, параллельно с видеорядом.

Качество результата зависит от нескольких факторов: разрешения исходников, углов обзора, освещения и вычислительной мощности. Именно в этих стыках и кроются уязвимости, которые позволяют вычислить подделку.

Женщина смотрит на смартфон с признаками дипфейка на экране, концепция кибербезопасности

Визуальные маркеры: что смотреть на экране

Большинство признаков дипфейка связано с тем, как алгоритмы обрабатывают микромимику и границы объектов. Человеческое лицо — сложная динамическая структура с десятками мышц, работающих синхронно. Нейросети пока плохо справляются с некоторыми паттернами.

Глаза. Самый надёжный индикатор. Обратите внимание на моргание — у дипфейков оно либо слишком редкое, либо механически регулярное. Зрачки могут неподвижно фиксировать одну точку даже при повороте головы. Рефлекторные микродвижения глаз — быстрый скачок взгляда в сторону при звуке — отсутствуют.
Границы лица. В местах соприкосновения кожи и других объектов — линия челюсти, уши, волосы, очки, борода — часто появляются артефакты. Лёгкое мерцание, размытие, неестественно чёткий контур. Особенно заметно, когда человек поворачивает голову в профиль.
Зубы и рот. Алгоритмам сложно корректно отрендерить внутреннюю полость рта. Зубы могут казаться плоскими, слишком белыми или «плавающими» относительно губ. При широком открытии рта картинка часто ломается.
Тени и освещение. Направление света на лице может не совпадать с фоном. Тени от носа или бровей ведут себя неестественно при движении головы.
Текстура кожи. Излишняя гладкость, отсутствие пор, мелких морщин и родинок — признак того, что лицо прошло через автоэнкодер, который имеет тенденцию «сглаживать» детали.

Аудиальные и поведенческие сигналы

Визуальная часть — не единственный канал утечки информации. Синтезированный голос и сценарное поведение выдают бота не реже, чем артефакты на лице.

Тембр и интонация. Голосовые модели стали лучше, но они всё ещё struggle с эмоциональными переходами. Если собеседник переходит от смеха к серьёзному тону слишком резко или, наоборот, монотонно читает текст — это тревожный сигнал. Обратите внимание на дыхание: у синтезированного голоса либо нет пауз на вдох, либо они расположены слишком равномерно.

Реакция на неожиданное. Спросите о чём-то, чего не может быть в заготовленном сценарии. Попросите показать что-то в комнате, назвать текущее время по часам за спиной, достать предмет определённого цвета. Дипфейк не сможет сгенерировать адекватную реакцию на нестандартный запрос — либо последует пауза, либо ответ уйдёт от темы, либо видео заморозится.

Синхронизация. Расхождение между движением губ и звуком — классический признак, но в современных моделях он встречается реже. Гораздо надёжнее следить за синхронизацией жестов и речи. Жестикуляция у дипфейков часто запаздывает на 200–400 миллисекунд или повторяется циклично.

Инструменты и подходы к проверке

Если после визуального и поведенческого анализа сомнения остались, можно применить технические методы. Они делятся на две категории: превентивные (до или во время звонка) и постфактум (после).

Превентивные методы

Подход Как работает Ограничения Проверка через другой канал Попросите перезвонить по другому номеру или написать в мессенджер, который ранее использовался для связи Мошенники могут контролировать несколько каналов Установочный вопрос Спросите о детали, известной только реальному человеку (общий знакомый, недавнее событие) Требует подготовки, не всегда применимо к новым знакомствам Тест на латентность Попросите быстро повернуть голову, поднять руки, показать ладони с обеих сторон Может раздражать собеседника, если он реален Анализ фона Ищите статичные элементы, которые должны двигаться (занавески от сквозняка, часы) Фон может быть размыт или искусственно статичен по другим причинам

Постфактум-анализ

После подозрительного звонка сохраните запись (если есть возможность) или сделайте скриншоты ключевых кадров. Существуют специализированные детекторы — Intel Real-Time Detection, Microsoft Video Authenticator, Sensity AI — но большинство из них ориентированы на корпоративный сегмент и недоступны рядовому пользователю. Из открытых инструментов можно упомянуть Hive Moderation, который предоставляет бесплатный базовый анализ загруженных изображений.

Для продвинутых пользователей есть вариант ручного анализа через FFmpeg: извлечение отдельных кадров с последующим изучением в редакторе на предмет артефактов, которые не видны при динамическом просмотре. Метод трудоёмкий, но даёт наиболее достоверный результат.

Сравнение стратегий защиты: что выбрать

Нет универсального решения, которое закроет все векторы атаки. Выбор стратегии зависит от контекста общения и уровня риска.

Портрет женщины с цифровыми глитч-эффектами на лице, символизирующими распознавание дипфейка в видеозвонке

Для рядового пользователя (знакомства, случайные звонки) достаточно поведенческой проверки. Комбинация теста на неожиданную реакцию и наблюдения за глазами даёт точность около 70–80% при минимальных усилиях. Главное правило — не переходить к интимному контенту в первом же звонке с незнакомцем. Временная задержка почти всегда работает против мошенников: им невыгодно вести долгую предварительную коммуникацию.

Для удалённых работников и фрилансеров стоит добавить верификацию через альтернативный канал. Если «руководитель» просит срочно перевести деньги или передать данные — перезвоните по номеру из записной книжки, а не по тому, с которого пришёл звонок.

Для компаний оправдано внедрение формальных процедур: кодовые фразы для подтверждения личности, обязательная многофакторная верификация для финансовых операций, регулярное обучение сотрудников. Технические решения вроде детекторов дипфейков на уровне инфраструктуры видеоконференций пока сыры и дают много ложных срабатываний.

Практический чеклист для подозрительного звонка

Посмотрите на глаза: есть ли естественное моргание и микродвижения зрачков?
Попросите собеседника повернуть голову в профиль — проверьте границу лица у уха и линии челюсти.
Задайте вопрос вне сценария и следите за реакцией.
Обратите внимание на тени: совпадает ли направление света на лице и на фоне?
Попросите показать что-то в комнате или выполнить нестандартное физическое действие.
Если звонок связан с деньгами или конфиденциальной информацией — прервитесь и свяжитесь с человеком через другой канал.

Дипфейки не всесильны. Каждая генерация — это компромисс между качеством, скоростью и вычислительными ресурсами. Мошенники ориентируются на среднестатистическую невнимательность, а не на подготовленного наблюдателя. Минута осознанного взгляда на экран чаще всего достаточна, чтобы отличить алгоритм от человека.