AI Injection Defense Lab

// chapter 01

Что такое Prompt Injection?

Атака, при которой злоумышленник внедряет инструкции в контекст LLM, заставляя модель выполнять непредусмотренные действия. SQL-инъекция, но для нейросетей.

Direct Injection

Пользователь явно просит модель сменить поведение: Ignore all previous instructions, role hijacking, запрос системного промпта.

Indirect Injection

Вредоносные инструкции скрыты в данных, которые модель читает: документы, email, web-страницы. Агент выполняет инъекцию, не зная об этом.

Multi-Step Attack

Серия безобидных запросов, каждый сам по себе безопасен, но в комбинации они готовят и эксплуатируют уязвимость. Трудно детектировать.

Data Exfiltration

Извлечение конфиденциальных данных: системные промпты, API-ключи, персональные данные клиентов, внутренняя конфигурация системы.

Почему это критично для банка?

Утечка данных

Персональные данные клиентов, условия NDA, внутренние регламенты — всё, что есть в контексте LLM, может быть извлечено.

Репутационный ущерб

Бот рекомендует конкурента, оскорбляет клиента или выдаёт фейковую информацию о продуктах. Скриншот в соцсетях — и готов скандал.

Обход бизнес-логики

Агент одобряет операцию, которую не должен. В банковском контексте это может означать прямые финансовые потери.

// chapter 02

Уровень 1: Наивный агент

PROTECTION: NONE

Простейшая архитектура — один вызов LLM. Системный промпт, сырые документы в контексте, сообщение пользователя. Без какой-либо фильтрации. Документы содержат скрытую инъекцию, которая активируется при обращении к данным о пенсионном вкладе.

Interactive Console — Level 1 deepseek-v3

Execution Trace

> awaiting input_

Preset Attacks

// chapter 03

Уровень 2: Цепочка агентов

PROTECTION: BASIC

Добавляем Sanitizer на входе и Output Guard на выходе. Прямые инъекции теперь блокируются. Но indirect injection через документы проходит — sanitizer проверяет только user input, а не содержимое документов.

Interactive Console — Level 2 deepseek-v3 x3 agents

Execution Trace

> awaiting input_

Preset Attacks

// chapter 04

Уровень 3: Инспектор документов

PROTECTION: ADVANCED

Ключевая идея — изоляция контекстов. Doc Checker получает ТОЛЬКО документы, без user input. Он не знает, что спросил пользователь, поэтому его нельзя обмануть через input. Любой текст, который выглядит как инструкция в банковском документе — аномалия.

Interactive Console — Level 3 deepseek-v3 x4 agents

Execution Trace

> awaiting input_

Preset Attacks

// chapter 05

Уровень 4: Крепость

PROTECTION: MAXIMUM

Радикальный подход: LLM никогда не видит сырые документы. Данные заранее извлечены в структурированный JSON — «light assets». В JSON нет места для инструкций. Дополнительно — Qwen 3 30B с thinking-режимом, которая рассуждает перед ответом.

Interactive Console — Level 4 qwen-3-30b + light assets

Execution Trace

> awaiting input_

Preset Attacks

// summary

Сравнительный анализ

	Lv.1 Naive	Lv.2 Chain	Lv.3 Inspector	Lv.4 Fortress
Модель	DeepSeek V3	DeepSeek V3	DeepSeek V3	Qwen 3 30B
Агенты	1	3	4	3 + offline
Direct injection	Vulnerable	Blocked	Blocked	Blocked
Indirect injection	Vulnerable	Vulnerable	Detected	Impossible
Data exfiltration	Vulnerable	Partial	Blocked	Blocked
Данные	Raw docs	Raw docs	Cleaned docs	JSON facts
LLM вызовов	1	3	4	3

Чеклист внедрения

Никогда не передавать сырой user input в LLM без фильтрации
Разделять данные и инструкции — structured data вместо сырых документов
Изолировать контексты — агент-проверщик не видит user input
Проверять и вход, и выход — атака может быть в ответе
Использовать разные модели — одинаковые слепые пятна = одинаковые уязвимости
Тестировать на инъекции как часть CI/CD
Мониторить через Langfuse — трейсы для обнаружения атак в production
Думать как атакующий — пентестить свои системы