ИИ-агенты беззащитны перед атаками внедрения промптов

StakeBench — это новый фреймворк для оценки безопасности, разработанный для тестирования ИИ-агентов в реалистичных многопользовательских средах.

Пока технологические гиганты и стартапы спешат развернуть автономных ИИ-агентов, способных самостоятельно просматривать веб-страницы, совершать покупки и торговать криптовалютой, эксперты бьют тревогу. Новое совместное исследование ученых из Наньянского технологического университета (NTU), ST Engineering, IBM Research и Иллинойсского университета в Урбане-Шампейне показало, что ни один из существующих ИИ-агентов не способен стабильно противостоять атакам внедрения подсказок (prompt injection).

Почему традиционная защита ИИ не работает

Проблема существующих систем безопасности заключается в том, что они оценивают угрозы изолированно. В реальном мире последствия одной и той же атаки могут кардинально отличаться в зависимости от того, кто является конечной целью.

«Риск внедрения промптов зависит от конкретной жертвы. Один и тот же эксплойт может вызвать асимметричные последствия для разных участников процесса, что делает традиционные тесты безопасности неэффективными», — отмечают исследователи.

Чтобы решить эту проблему, команда создала StakeBench — специализированный бенчмарк, который тестирует реакцию ИИ-агентов на атаки в условиях, максимально приближенных к реальному интернету.

Результаты тестирования безопасности ИИ-агентов:
• Успешность прямых атак: 79%
• Успешность косвенных атак: 41.67% – 68.16%

Масштаб уязвимости: GPT-5 и Gemini под прицелом

В ходе исследования ученые провели 3168 симуляций атак с использованием инструментов NanoBrowser и BrowserUse на базе новейших моделей, включая GPT-5 и Gemini 2.5-Flash. Результаты оказались неутешительными: прямые атаки достигали цели более чем в 79% случаев.

Косвенные атаки, при которых вредоносные инструкции скрыты на веб-страницах, посещаемых ИИ-агентом, также показали высокую эффективность. Это открывает огромные возможности для злоумышленников, стремящихся перехватить управление автономными системами.

Феномен «скрытого паразитизма»

Исследователи обратили особое внимание на так называемый «скрытый паразитизм» (stealthy parasitism). В этом сценарии ИИ-агент успешно выполняет задачу пользователя, но параллельно продвигает скрытую цель злоумышленника. Например, незаметно меняет рекомендации товаров в пользу определенного бренда или передает конфиденциальные данные на сторонний сервер без ведома владельца.

Прямое внедрение: Злоумышленник напрямую отправляет команду, перехватывающую управление ИИ.
Косвенное внедрение: Вредоносный код скрыт в тексте веб-сайта, который ИИ-агент анализирует для выполнения задачи.
Скрытый паразитизм: Выполнение вредоносных действий на фоне легитимной работы ИИ.

Часто задаваемые вопросы (FAQ)

Что такое атака внедрения промпта (prompt injection)?

Это метод атаки, при котором злоумышленник внедряет скрытые инструкции в данные, обрабатываемые ИИ, заставляя модель игнорировать первоначальные указания пользователя и выполнять команды хакера.

Какие модели ИИ тестировались в исследовании?

Тестирование проводилось на передовых моделях, включая GPT-5 и Gemini 2.5-Flash, с использованием фреймворков автоматизации браузера.

Можно ли полностью защитить ИИ-агента от таких атак?

На данный момент абсолютного решения не существует. Исследователи подчеркивают, что безопасность ИИ-агентов — это комплексная проблема, требующая изменения самой архитектуры взаимодействия моделей с внешними данными.