Как понять, что в видеозвонке с вами говорит не человек, а дипфейк
Опубликовано: 28.05.2026
История про дипфейки в видеозвонках перестала быть теорией. Весной 2024 года сотрудники британского филиала крупной multinational corporation перевели 25 миллионов долларов на счета мошенников после двадцатиминутного разговора с «главным бухгалтером» и несколькими коллегами. Все участники встречи были сгенерированы. Подобные кейсы происходят регулярно, и масштабы варьируются от корпоративного шантажа до персонального вымогательства.
Отдельная категория таких атак — создание порнографического контента с чужим лицом. Схема часто строится на видеозвонке: жертва общается с привлекательным собеседником, происходит интимная часть разговора, а потом появляются угрозы распространить скомпилированные ролики. Понять, что по ту сторону экрана работал алгоритм, а не живой человек, можно — если знать, на что смотреть.
Анатомия обмана: как устроены дипфейки в реальном времени
Генерация реалистичного видео в ходе звонка требует серьёзных вычислительных ресурсов. Раньше это было уделом студий с фермы GPU, сейчас достаточно мощной видеокарты потребительского класса и подходящего ПО. Существуют как открытые решения вроде SlyGen, так и закрытые коммерческие продукты, которые мошенники используют по подписке или покупают на теневых форумах.
Технически процесс выглядит так: исходное видео с реальным человеком (часто украденное из соцсетей) подаётся на вход модели, которая заменяет лицо на целевое. В реальном времени это происходит с задержкой в несколько сотен миллисекунд — достаточно быстро, чтобы не вызывать подозрений при нормальном соединении. Голос синтезируется отдельно, параллельно с видеорядом.
Качество результата зависит от нескольких факторов: разрешения исходников, углов обзора, освещения и вычислительной мощности. Именно в этих стыках и кроются уязвимости, которые позволяют вычислить подделку.

Визуальные маркеры: что смотреть на экране
Большинство признаков дипфейка связано с тем, как алгоритмы обрабатывают микромимику и границы объектов. Человеческое лицо — сложная динамическая структура с десятками мышц, работающих синхронно. Нейросети пока плохо справляются с некоторыми паттернами.
- Глаза. Самый надёжный индикатор. Обратите внимание на моргание — у дипфейков оно либо слишком редкое, либо механически регулярное. Зрачки могут неподвижно фиксировать одну точку даже при повороте головы. Рефлекторные микродвижения глаз — быстрый скачок взгляда в сторону при звуке — отсутствуют.
- Границы лица. В местах соприкосновения кожи и других объектов — линия челюсти, уши, волосы, очки, борода — часто появляются артефакты. Лёгкое мерцание, размытие, неестественно чёткий контур. Особенно заметно, когда человек поворачивает голову в профиль.
- Зубы и рот. Алгоритмам сложно корректно отрендерить внутреннюю полость рта. Зубы могут казаться плоскими, слишком белыми или «плавающими» относительно губ. При широком открытии рта картинка часто ломается.
- Тени и освещение. Направление света на лице может не совпадать с фоном. Тени от носа или бровей ведут себя неестественно при движении головы.
- Текстура кожи. Излишняя гладкость, отсутствие пор, мелких морщин и родинок — признак того, что лицо прошло через автоэнкодер, который имеет тенденцию «сглаживать» детали.
Аудиальные и поведенческие сигналы
Визуальная часть — не единственный канал утечки информации. Синтезированный голос и сценарное поведение выдают бота не реже, чем артефакты на лице.
Тембр и интонация. Голосовые модели стали лучше, но они всё ещё struggle с эмоциональными переходами. Если собеседник переходит от смеха к серьёзному тону слишком резко или, наоборот, монотонно читает текст — это тревожный сигнал. Обратите внимание на дыхание: у синтезированного голоса либо нет пауз на вдох, либо они расположены слишком равномерно.
Реакция на неожиданное. Спросите о чём-то, чего не может быть в заготовленном сценарии. Попросите показать что-то в комнате, назвать текущее время по часам за спиной, достать предмет определённого цвета. Дипфейк не сможет сгенерировать адекватную реакцию на нестандартный запрос — либо последует пауза, либо ответ уйдёт от темы, либо видео заморозится.
Синхронизация. Расхождение между движением губ и звуком — классический признак, но в современных моделях он встречается реже. Гораздо надёжнее следить за синхронизацией жестов и речи. Жестикуляция у дипфейков часто запаздывает на 200–400 миллисекунд или повторяется циклично.

Инструменты и подходы к проверке
Если после визуального и поведенческого анализа сомнения остались, можно применить технические методы. Они делятся на две категории: превентивные (до или во время звонка) и постфактум (после).
Превентивные методы
Подход Как работает Ограничения Проверка через другой канал Попросите перезвонить по другому номеру или написать в мессенджер, который ранее использовался для связи Мошенники могут контролировать несколько каналов Установочный вопрос Спросите о детали, известной только реальному человеку (общий знакомый, недавнее событие) Требует подготовки, не всегда применимо к новым знакомствам Тест на латентность Попросите быстро повернуть голову, поднять руки, показать ладони с обеих сторон Может раздражать собеседника, если он реален Анализ фона Ищите статичные элементы, которые должны двигаться (занавески от сквозняка, часы) Фон может быть размыт или искусственно статичен по другим причинамПостфактум-анализ
После подозрительного звонка сохраните запись (если есть возможность) или сделайте скриншоты ключевых кадров. Существуют специализированные детекторы — Intel Real-Time Detection, Microsoft Video Authenticator, Sensity AI — но большинство из них ориентированы на корпоративный сегмент и недоступны рядовому пользователю. Из открытых инструментов можно упомянуть Hive Moderation, который предоставляет бесплатный базовый анализ загруженных изображений.
Для продвинутых пользователей есть вариант ручного анализа через FFmpeg: извлечение отдельных кадров с последующим изучением в редакторе на предмет артефактов, которые не видны при динамическом просмотре. Метод трудоёмкий, но даёт наиболее достоверный результат.
Сравнение стратегий защиты: что выбрать
Нет универсального решения, которое закроет все векторы атаки. Выбор стратегии зависит от контекста общения и уровня риска.

Для рядового пользователя (знакомства, случайные звонки) достаточно поведенческой проверки. Комбинация теста на неожиданную реакцию и наблюдения за глазами даёт точность около 70–80% при минимальных усилиях. Главное правило — не переходить к интимному контенту в первом же звонке с незнакомцем. Временная задержка почти всегда работает против мошенников: им невыгодно вести долгую предварительную коммуникацию.
Для удалённых работников и фрилансеров стоит добавить верификацию через альтернативный канал. Если «руководитель» просит срочно перевести деньги или передать данные — перезвоните по номеру из записной книжки, а не по тому, с которого пришёл звонок.
Для компаний оправдано внедрение формальных процедур: кодовые фразы для подтверждения личности, обязательная многофакторная верификация для финансовых операций, регулярное обучение сотрудников. Технические решения вроде детекторов дипфейков на уровне инфраструктуры видеоконференций пока сыры и дают много ложных срабатываний.
Практический чеклист для подозрительного звонка
- Посмотрите на глаза: есть ли естественное моргание и микродвижения зрачков?
- Попросите собеседника повернуть голову в профиль — проверьте границу лица у уха и линии челюсти.
- Задайте вопрос вне сценария и следите за реакцией.
- Обратите внимание на тени: совпадает ли направление света на лице и на фоне?
- Попросите показать что-то в комнате или выполнить нестандартное физическое действие.
- Если звонок связан с деньгами или конфиденциальной информацией — прервитесь и свяжитесь с человеком через другой канал.
Дипфейки не всесильны. Каждая генерация — это компромисс между качеством, скоростью и вычислительными ресурсами. Мошенники ориентируются на среднестатистическую невнимательность, а не на подготовленного наблюдателя. Минута осознанного взгляда на экран чаще всего достаточна, чтобы отличить алгоритм от человека.