Скрытые аудиоатаки взламывают голосовые ИИ-модели

Новая угроза для голосовых ассистентов: как работает AudioHijack

Развитие больших аудио-языковых моделей (LALM) открыло новую эру взаимодействия человека с машиной. Однако вместе с удобством пришли и новые риски. Исследователи из Чжэцзянского университета (Китай) обнаружили критическую уязвимость, которая позволяет злоумышленникам перехватывать контроль над ИИ-моделями с помощью неслышимых для человека звуковых сигналов.

Метод атаки, получивший название AudioHijack, был представлен на 47-м симпозиуме IEEE по безопасности и конфиденциальности в Сан-Франциско. Он демонстрирует поразительную эффективность, обходя традиционные текстовые фильтры безопасности.

Показатели угрозы AudioHijack

Успешность атаки: 96%
Время обучения сигнала: 30 минут
Скомпрометировано моделей: 13+ (включая коммерческие системы от Microsoft и Mistral)

Механика акустической манипуляции

В отличие от классических методов джейлбрейка или внедрения вредоносных текстовых промптов, AudioHijack работает непосредственно с цифровым аудиосигналом. Атака модифицирует числовые значения внутри волновой формы аудиофайла. Эти изменения абсолютно незаметны для человеческого уха, но кардинально меняют то, как нейросеть интерпретирует входящий поток.

Самое опасное заключается в том, что вредоносный сигнал не зависит от контекста разговора. Он может накладываться на обычную речь пользователя, полностью перехватывая управление моделью.

«Для обучения этого сигнала требуется всего полчаса. Поскольку сигнал не зависит от контекста, вы можете использовать его для атаки на целевую модель в любое время, независимо от того, что говорит пользователь», — пояснил ведущий автор исследования Мэн Чэнь (Meng Chen), аспирант Чжэцзянского университета.

Что такое LALM? Большие аудио-языковые модели (LALM) — это передовые системы искусственного интеллекта, разработанные для прямой обработки голосовых команд, что обеспечивает бесшовное голосовое взаимодействие и интеграцию с внешними инструментами.

Масштаб угрозы и векторы распространения

Исследователи протестировали AudioHijack на 13 популярных ИИ-моделях с открытым исходным кодом, а также на проприетарных технологиях от технологических гигантов. Результаты оказались тревожными. Скрытые команды заставляли ИИ:

Распространять дезинформацию и переходить по вредоносным ссылкам;
Игнорировать легитимные запросы пользователей;
Выполнять несанкционированные действия, такие как скачивание файлов, веб-поиск и отправка писем с конфиденциальными данными.

Каналами доставки такого деструктивного аудио могут стать обычные видеоролики на YouTube, музыкальные треки, голосовые сообщения в мессенджерах или даже трансляции в Zoom, которые затем отправляются на автоматическую расшифровку ИИ-сервисами. Более того, предварительные тесты показали работоспособность атаки в режиме реального времени во время живых голосовых чатов с ИИ.

Существуют ли методы защиты?

На данный момент эффективная защита от подобных атак остается открытым вопросом. Наиболее перспективным методом противодействия исследователи называют мониторинг внутренних механизмов внимания (attention mechanisms) нейросети. Тем не менее, если злоумышленник знает о наличии такой защиты, он может снизить интенсивность искажения аудиосигнала, сохранив при этом высокую эффективность взлома.

Часто задаваемые вопросы (FAQ)

Что такое AudioHijack?

Это метод кибератаки, при котором в аудиозапись внедряются неслышимые для человека сигналы, способные удаленно управлять поведением голосовых моделей искусственного интеллекта.

Какие модели подвержены этой уязвимости?

Исследование подтвердило уязвимость 13 моделей с открытым исходным кодом, а также коммерческих систем от Microsoft и Mistral.

Как защитить свои устройства от подобных атак?

Пользователям рекомендуется избегать загрузки подозрительных аудиофайлов в ИИ-транскрибаторы и с осторожностью использовать голосовые чаты в непроверенных приложениях. Разработчикам же необходимо внедрять глубокий анализ спектра аудиосигналов на этапе их предобработки.