Пока технологические гиганты и стартапы спешат развернуть автономных ИИ-агентов, способных самостоятельно просматривать веб-страницы, совершать покупки и торговать криптовалютой, эксперты бьют тревогу. Новое совместное исследование ученых из Наньянского технологического университета (NTU), ST Engineering, IBM Research и Иллинойсского университета в Урбане-Шампейне показало, что ни один из существующих ИИ-агентов не способен стабильно противостоять атакам внедрения подсказок (prompt injection).
Почему традиционная защита ИИ не работает
Проблема существующих систем безопасности заключается в том, что они оценивают угрозы изолированно. В реальном мире последствия одной и той же атаки могут кардинально отличаться в зависимости от того, кто является конечной целью.
«Риск внедрения промптов зависит от конкретной жертвы. Один и тот же эксплойт может вызвать асимметричные последствия для разных участников процесса, что делает традиционные тесты безопасности неэффективными», — отмечают исследователи.
Чтобы решить эту проблему, команда создала StakeBench — специализированный бенчмарк, который тестирует реакцию ИИ-агентов на атаки в условиях, максимально приближенных к реальному интернету.
• Успешность прямых атак: 79%
• Успешность косвенных атак: 41.67% – 68.16%
Масштаб уязвимости: GPT-5 и Gemini под прицелом
В ходе исследования ученые провели 3168 симуляций атак с использованием инструментов NanoBrowser и BrowserUse на базе новейших моделей, включая GPT-5 и Gemini 2.5-Flash. Результаты оказались неутешительными: прямые атаки достигали цели более чем в 79% случаев.
Косвенные атаки, при которых вредоносные инструкции скрыты на веб-страницах, посещаемых ИИ-агентом, также показали высокую эффективность. Это открывает огромные возможности для злоумышленников, стремящихся перехватить управление автономными системами.
Феномен «скрытого паразитизма»
Исследователи обратили особое внимание на так называемый «скрытый паразитизм» (stealthy parasitism). В этом сценарии ИИ-агент успешно выполняет задачу пользователя, но параллельно продвигает скрытую цель злоумышленника. Например, незаметно меняет рекомендации товаров в пользу определенного бренда или передает конфиденциальные данные на сторонний сервер без ведома владельца.
- Прямое внедрение: Злоумышленник напрямую отправляет команду, перехватывающую управление ИИ.
- Косвенное внедрение: Вредоносный код скрыт в тексте веб-сайта, который ИИ-агент анализирует для выполнения задачи.
- Скрытый паразитизм: Выполнение вредоносных действий на фоне легитимной работы ИИ.
Часто задаваемые вопросы (FAQ)
Что такое атака внедрения промпта (prompt injection)?
Это метод атаки, при котором злоумышленник внедряет скрытые инструкции в данные, обрабатываемые ИИ, заставляя модель игнорировать первоначальные указания пользователя и выполнять команды хакера.
Какие модели ИИ тестировались в исследовании?
Тестирование проводилось на передовых моделях, включая GPT-5 и Gemini 2.5-Flash, с использованием фреймворков автоматизации браузера.
Можно ли полностью защитить ИИ-агента от таких атак?
На данный момент абсолютного решения не существует. Исследователи подчеркивают, что безопасность ИИ-агентов — это комплексная проблема, требующая изменения самой архитектуры взаимодействия моделей с внешними данными.
