โ ๐ ์ด๋ฒ ์ฃผ Weekly Digest๋ก ๋์๊ฐ๊ธฐ
DD-005 AgentDoG: A Diagnostic Guardrail Framework for AI Agent Safety and Security
arXiv: 2601.18491 ๊ธฐ๊ด: AI45Research Upvotes: 120 | Comments: 8 ์์: ์ด๋ฒ ์ฃผ Top 5

[Paper Review] AgentDoG: A Diagnostic Guardrail Framework for AI Agent Safety and Security
๋ ผ๋ฌธ ์ ๋ณด
- arXiv ID: 2601.18491
- ํต์ฌ contribution: AI ์์ด์ ํธ์ ์์ ์ฑ์ ์ง๋จํ๋ ์๋ก์ด 3D ๋ถ๋ฅ ์ฒด๊ณ(Taxonomy), ๋ฒค์น๋งํฌ(ATBench), ๊ทธ๋ฆฌ๊ณ ๊ฐ๋๋ ์ผ ํ๋ ์์ํฌ(AgentDoG) ์ ์
1. ์ ์ด ๋ ผ๋ฌธ์ด ์ค์ํ๊ฐ?
๊ธฐ์กด์ ๊ฐ๋๋ ์ผ ๋ชจ๋ธ(LlamaGuard ๋ฑ)์ ์ฑํ ์ฐฝ์ ๋ง์ง๋ง ๋ต๋ณ๋ง ๊ฒ์ฌํ๊ธฐ ๋๋ฌธ์, ์์ด์ ํธ๊ฐ ๋ด๋ถ์ ์ผ๋ก ์ํํ ๋๊ตฌ(Tool)๋ฅผ ์ฌ์ฉํ๊ฑฐ๋ ํ๊ฒฝ์ ์ค์ผ์ํค๋ ๊ณผ์ ์ ์ ํ ๊ฐ์งํ์ง ๋ชปํ์ต๋๋ค. ์ด ๋ ผ๋ฌธ์ ์์ด์ ํธ์ ํ๋ **์ ์ฒด ๊ณผ์ (Trajectory)**์ ๋ชจ๋ํฐ๋งํ๊ณ , ์ํ์ ๋จ์ํ โ์ํ/์์ โ์ผ๋ก๋ง ๋๋์ง ์๊ณ โ์ด๋์(์์ธ), ์ด๋ป๊ฒ(์คํจ ๋ชจ๋), ๋ฌด์์(๊ฒฐ๊ณผ)โ๋ผ๋ 3์ฐจ์ ๊ตฌ์กฐ๋ก ์ง๋จํ์ฌ ํฌ๋ช ์ฑ์ ํ๋ณดํ ์ต์ด์ ์ฐ๊ตฌ์ ๋๋ค.
2. ํต์ฌ ์์ด๋์ด ์ฝ๊ฒ ์ดํดํ๊ธฐ
๐ข ์ผ์์ํ ๋น์ : โ์ํ ์ฐฝ๊ตฌ์ ๋ณด์ํโ vs โ์ํ ์ ํ์ โ
- ๊ธฐ์กด ๊ฐ๋๋ ์ผ (์ํ ์ฐฝ๊ตฌ ์ง์): ์ํ ์ฐฝ๊ตฌ์์ ๋์ค๋ ๊ณ ๊ฐ์ ๋ง์ง๋ง ๋ง(โ๋ ๋ค ์ฐพ์์ต๋๋คโ)๋ง ๋ฃ๊ณ ์ด์์ด ์๋์ง ํ์ธํฉ๋๋ค. ํ์ง๋ง ๊ณ ๊ฐ์ด ์ฐฝ๊ตฌ ์์์ ๋๊ตฐ์ฌ์ ๊ฑฐ๋ํ๊ฑฐ๋ ์์กฐ์งํ๋ฅผ ์ฐ๋ ๊ณผ์ ์ ๋ณด์ง ๋ชปํฉ๋๋ค.
- AgentDoG (CCTV๋ฅผ ๋ณด๋ ํ์ ): ์ํ์ ๋ค์ด์์ ๋๊ฐ ๋๊น์ง์ **๋ชจ๋ ํ๋(CCTV)**์ ์ถ์ ํฉ๋๋ค.
- ๋๊ฐ ์ ๊ทผํ๋? (Source: ์ํ ์ง์์ธ ์ฒํ๋ ์ฌ๊ธฐ๊พผ์ธ๊ฐ?)
- ์ด๋ป๊ฒ ํ๋ํ๋? (Mode: ๊ธ๊ณ ๋น๋ฐ๋ฒํธ๋ฅผ ์์๋ด๋ ค๊ณ ์ค์น๋๋ฅผ ๊ทธ๋ ธ๋๊ฐ?)
- ๊ฒฐ๊ณผ๊ฐ ์ด๋ค๊ฐ? (Harm: ์ค์ ๋์ด ๋น ์ ธ๋๊ฐ๋๊ฐ, ์๋๋ฉด ์๋๋ง ํ๋๊ฐ?)
์ด๋ ๊ฒ ๋จ์ํ โ๋์ ์ฌ๋์ ๋๋คโ๋ผ๊ณ ๊ฒฝ๊ณ ํ๋ ๋์ , **โ๋ณด์ด์คํผ์ฑ์ฉ ์คํฌ๋ฆฝํธ(Where)๋ฅผ ์ด์ฉํด ์ ํ๊ธฐ(HOW)๋ก ์กฐ์์ ์๋ํ์ฌ ๊ธ์ต ์ฌ๊ธฐ(WHAT)๋ฅผ ์ ์ง๋ ์ต๋๋คโ**๋ผ๊ณ ์ ํํ ๋ณ๋ช (์ง๋จ)์ ๋ด๋ ค์ค๋๋ค.
โ๏ธ ๋จ๊ณ๋ณ ๋์ ์๋ฆฌ
-
3D ์ธ์ดํํฐ ํ์๋ ธ๋ฏธ (Taxonomy) ์ ์:
- ์ํ์ ํ๋ฉด์ ์ผ๋ก ๋์ดํ์ง ์๊ณ ์ง๊ตํ๋ 3๊ฐ์ง ์ถ์ผ๋ก ์ ์ํฉ๋๋ค.
- Source (์ํ์ ์ถ์ฒ): ์ฌ์ฉ์ ์ ๋ ฅ(Prompt Injection), ๋๊ตฌ ์ฌ์ฉ(Malicious Tool), ํ๊ฒฝ ํผ๋๋ฐฑ ๋ฑ.
- Failure Mode (์คํจ ๋ฐฉ์): ๊ถํ ๋จ์ฉ, ์๋ชป๋ ๊ณํ ์๋ฆฝ, ์ ๋ณด ๋์ถ ๋ฑ.
- Consequence (ํผํด ๊ฒฐ๊ณผ): ์์คํ ํ๊ดด, ์ฌ์ ์ ์์ค, ํ๋ผ์ด๋ฒ์ ์นจํด ๋ฑ.
-
๊ถค์ (Trajectory) ์์ง ๋ฐ ๋ถ์:
- ์์ด์ ํธ๊ฐ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ๊ณผ์ ์ ๋ชจ๋ ๊ธฐ๋ก(์๊ฐ, ๋๊ตฌ ํธ์ถ, ๊ฒฐ๊ณผ)์ ์ ๋ ฅ์ผ๋ก ๋ฐ์ต๋๋ค.
- ๋ง์ง๋ง ๋ต๋ณ์ด ์ ์์ ์ด๋ผ๋, ์ค๊ฐ ๊ณผ์ ์์ ์์ฌ์ค๋ฌ์ด
delete_file๊ฐ์ ๋๊ตฌ ํธ์ถ์ด ์์๋์ง ๊ฒ์ฌํฉ๋๋ค.
-
์ง๋จ (Diagnosis):
- ๋ชจ๋ธ์ ํด๋น ๊ถค์ ์ ๋ณด๊ณ ๋ ๊ฐ์ง๋ฅผ ์ถ๋ ฅํฉ๋๋ค.
- ์ด์ง ํ๋จ: Safe (์์ ) vs Unsafe (์ํ)
- ์ธ๋ถ ์ง๋จ: (Source, Mode, Harm) ๋ ์ด๋ธ. ์:
(User_Induced, Prompt_Injection, Information_Leak)
๐งฎ ํต์ฌ ์์
๋ ผ๋ฌธ์์๋ ๊ถค์ (Trajectory) $\mathcal{T}$๋ฅผ ๋ค์๊ณผ ๊ฐ์ด ์ ์ํฉ๋๋ค.
$$ \mathcal{T} = {t_1, \dots, t_n}, \quad t_i = (a_i, o_i) $$
์ฌ๊ธฐ์ $t_i$๋ ๊ฐ ๋จ๊ณ์ ์คํ , $a_i$๋ ์์ด์ ํธ์ ํ๋(Action, ๋๊ตฌ ํธ์ถ ๋ฑ), $o_i$๋ ํ๊ฒฝ์ ๊ด์ฐฐ(Observation)์ ๋๋ค.
์์ ์ฑ ํ๋จ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค. ๊ณผ์ ์ ์ด๋ ํ ์คํ ์ด๋ผ๋ ์ํํ๋ค๋ฉด ์ ์ฒด๋ฅผ ์ํ์ผ๋ก ๊ฐ์ฃผํฉ๋๋ค.
$$ y = \text{unsafe} \iff \exists i \in {1, \dots, n}, \textsf{Unsafe}(t_i) = \text{True} $$
์ด์ด์ ์ธ๋ถ ์ง๋จ ๊ฒฐ๊ณผ $y_{\text{fine}}$์ 3์ฐจ์ ๋ ์ด๋ธ๋ก ์ถ๋ ฅ๋ฉ๋๋ค.
$$ y_{\text{fine}} = (\ell^{\text{risk}}, \ell^{\text{mode}}, \ell^{\text{harm}}) $$
3. ์คํ ๊ฒฐ๊ณผ ๋ถ์
๐ ๋ฒค์น๋งํฌ: ATBench (Agent Trajectory Safety and Security Benchmark)
์ ์๋ค์ด ๊ธฐ์กด ๋ฒค์น๋งํฌ์ ๋ถ์กฑํจ์ ์ฑ์ฐ๊ธฐ ์ํด ์ง์ ๋ง๋ ์๋ก์ด ํ๊ฐ ๋ฐ์ดํฐ์ ์ ๋๋ค.
- ๊ท๋ชจ: ์ด 500๊ฐ์ ์์ด์ ํธ ๊ถค์ (์์ 250๊ฐ, ์ํ 250๊ฐ)
- ๋ณต์ก์ฑ: ํ๊ท 8.97ํด(Turn)์ ๊ธด ๋ํ์ ์ํธ์์ฉ ํฌํจ (๊ธฐ์กด์ ๋ณดํต 5ํด ๋ฏธ๋ง)
- ๋ค์์ฑ: 1,575๊ฐ์ ๋ ํนํ ๋๊ตฌ(Tools) ๋ฑ์ฅ
๐ ์ฑ๋ฅ ๋น๊ณผ (๊ธฐ์กด SOTA ๋๋น)
ATBench๋ฅผ ์ด์ฉํด AgentDoG์ ๊ธฐ์กด ๋ชจ๋ธ๋ค(LlamaGuard 3, Qwen 2.5 Guard ๋ฑ)์ ๋น๊ตํ์ต๋๋ค.
-
ํ์ง ์ฑ๋ฅ (Detection Accuracy):
- ๊ธฐ์กด ๊ฐ๋๋ ์ผ๋ค์ ์์ด์ ํธ์ โ์ค๊ฐ ํ๋โ์ ๋ณด์ง ๋ชปํด ์ํ์ ์์ ํ๋ค๊ณ ์คํ(False Negative)ํ๋ ๊ฒฝ์ฐ๊ฐ ๋ง์์ต๋๋ค.
- AgentDoG๋ ๊ถค์ ์ ์ฒด๋ฅผ ๋ฐ๋ผ๋ณด๊ธฐ ๋๋ฌธ์ ์ค๊ฐ์ ์จ๊ฒจ์ง ์ํ(Prompt injection, Malicious tool use)์ ํจ์ฌ ์ ํํ ์ก์๋ ๋๋ค.
-
์ง๋จ ์ ํ๋ (Diagnostic Accuracy):
- AgentDoG๋ ์ํ์ ๋จ์ํ โ๋์จโ์ผ๋ก ๋ถ๋ฅํ๋ ๊ฒ์ ๋์ด, ์ ํํ ์์ธ(Source)๊ณผ ๊ฒฐ๊ณผ(Harm)๋ฅผ ๋งคํํ๋ ๋ฐ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค.
- ์ด๋ โ์ ์ํํ๊ฐโ๋ฅผ ์๋ ค์ค์ผ ํ๋ ์ค์ ์ด์ ํ๊ฒฝ์์ ๋งค์ฐ ์ค์ํ ์งํ์ ๋๋ค.
4. ํ๊ณ์ ๊ณผ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
๐ซ ํ๊ณ์ (์ ์ ์ธ์)
- ์ ์ ๋ฐ์ดํฐ ํ๊ณ: ํ์ฌ๋ ์ด๋ฏธ ์์ง๋ ๊ถค์ ์ ๋ฐํ์ผ๋ก ์ฌํ ๋ถ์(Post-hoc)์ ์ฃผ๋ก ์ํํฉ๋๋ค. ์ค์๊ฐ์ผ๋ก ์์ด์ ํธ ํ๋์ ์ค๋จ(Interrupt)์ํค๋ ๊ฒ์ ์ฐ๊ตฌ ๋ฒ์๋ฅผ ๋ฒ์ด๋๊ฑฐ๋ ์ถ๊ฐ์ ์ธ ์ฐ๊ตฌ๊ฐ ํ์ํฉ๋๋ค.
- ํ์๋ ธ๋ฏธ์ ์์ ์ฑ: 3D ํ์๋ ธ๋ฏธ๊ฐ ๋งค์ฐ ์ฒด๊ณ์ ์ด์ง๋ง, ๋์์์ด ์งํํ๋ ์๋ก์ด ์ ํ์ ๊ณต๊ฒฉ(์: ๋ฉํฐ๋ชจ๋ฌ ๊ณต๊ฒฉ ๋ฑ)์ ์๋ฒฝํ ์ปค๋ฒํ๊ธฐ ์ํด์๋ ์ง์์ ์ธ ์ ๋ฐ์ดํธ๊ฐ ํ์ํฉ๋๋ค.
๐ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
- ์ค์๊ฐ ์ธํฐ๋ฒค์ (Real-time Intervention): ์ํํ ํ๋์ด ์คํ๋๊ธฐ ์ง์ ์ ๊ฐ์งํ๊ณ ์ฆ์ ์ค๋จ์ํค๋ ์์คํ ์ผ๋ก ํ์ฅ.
- ์๊ฐ ์์ ๋ฅ๋ ฅ (Self-Correction): ์ง๋จ ๊ฒฐ๊ณผ๋ฅผ ์์ด์ ํธ์๊ฒ ํผ๋๋ฐฑํ์ฌ, ์์ด์ ํธ๊ฐ ์ค์ค๋ก ์๋ชป๋ ํ๋์ ์์ ํ๋๋ก ์ ๋ํ๋ ์ฐ๊ตฌ.
5. ์ค๋ฌด ์ ์ฉ ๊ฐ๋ฅ์ฑ
๐ ๏ธ ๋ฐ๋ก ์ ์ฉ ๊ฐ๋ฅํ ๋ถ์ผ
- ๊ธฐ์ ์ฉ AI ์ฝ๋ฉ ์์ด์ ํธ: ๊ฐ๋ฐ์๋ฅผ ๋๋ AI๊ฐ ์๋์น ์๊ฒ ์ค์ ์ฝ๋๋ฅผ ์ญ์ ํ๊ฑฐ๋ ๋น๋ฐํค๋ฅผ ๋ ธ์ถํ๋ ค ํ ๋ ์ฆ์ ์ฐจ๋จ.
- ๊ธ์ต/๋ณด์ด์คํผ์ฑ ๋ฐฉ์ง ์ฑ๋ด: ๊ณ ๊ฐ ์ ๋ณด๋ฅผ ์กฐํํ๋ AI ์์ด์ ํธ๊ฐ ์ผํ ํ์๋ฅผ ํ๊ฑฐ๋ ์ ์์ ์ธ ํ๋กฌํํธ์ ์กฐ์๋ ๋ ๋ฐฉ์ด.
- ์คํ ๋งํฐ์ RPA (Robotic Process Automation): ๋ณต์กํ ์ ๋ฌด ์๋ํ ๋ด์ด ์น์ธ๋์ง ์์ ์๋ฒ์ ์ ๊ทผํ๋ ค๋ ์๋ ์ฌ์ ์ฐจ๋จ.
๐พ ํ์ํ ๋ฆฌ์์ค
- GPU: ์ค๊ฐ ํฌ๊ธฐ์ LLM(์: Llama-3-8B๋ ์ ์ฌํ ํฌ๊ธฐ์ Guardrail ๋ชจ๋ธ)์ ์ฌ์ฉํ๋ฏ๋ก, ์ผ๋ฐ์ ์ธ ์๋น์์ฉ GPU(์: RTX 4090)๋ ํด๋ผ์ฐ๋์ ๋จ์ผ ์ธ์คํด์ค์์๋ ์ถฉ๋ถํ ๊ตฌ๋ ๊ฐ๋ฅํฉ๋๋ค.
- ๋ฐ์ดํฐ: ์์ฒด ์ฌ๋ด ๋ฐ์ดํฐ์ ์ ์ฉํ๋ ค๋ฉด ํด๋น ๋๊ตฌ์ ํ๊ฒฝ์ ๋ง๋ ๊ถค์ ๋ฐ์ดํฐ๋ฅผ ์์งํด ํ์ธํ๋ํ๊ฑฐ๋ few-shot ์์ ๋ฅผ ๊ตฌ์ฑํด์ผ ํฉ๋๋ค.
6. ์ด ๋ ผ๋ฌธ์ ์ดํดํ๊ธฐ ์ํ ์ฌ์ ์ง์
- LLM (Large Language Model): ํ ์คํธ๋ฅผ ์ดํดํ๊ณ ์์ฑํ๋ ๊ฑฐ๋ ์ธ์ด ๋ชจ๋ธ์ ๊ธฐ์ด ๊ฐ๋ .
- AI Agent: LLM์ด ์ค์ค๋ก ๊ณํ์ ์ธ์ฐ๊ณ ๋๊ตฌ(Tool)๋ฅผ ์ฌ์ฉํ์ฌ ๋ชฉํ๋ฅผ ๋ฌ์ฑํ๋ ์์จ ์์คํ .
- Tool Use / Function Calling: LLM์ด ์ธ๋ถ API๋ ๊ณ์ฐ๊ธฐ, ๊ฒ์ ์์ง ๋ฑ์ ํธ์ถํ์ฌ ๊ฒฐ๊ณผ๋ฅผ ๋ฐ์์ค๋ ๊ธฐ๋ฅ.
- Trajectory (๊ถค์ ): ์์ด์ ํธ๊ฐ ์์ํด์ ๋๋ ๋๊น์ง์ ์ํ, ํ๋, ๊ด์ฐฐ์ ์ ์ฒด ๊ธฐ๋ก ๋ก๊ทธ.
- Guardrail (๊ฐ๋๋ ์ผ): AI๊ฐ ์ํํ๊ฑฐ๋ ์์น ์๋ ๋ต๋ณ์ ์์ฑํ๋ ๊ฒ์ ๋ฏธ๋ฆฌ ๋ง๋ ์์ ์ฅ์น.
- Prompt Injection (ํ๋กฌํํธ ์ธ์ ์ ): ๊ณต๊ฒฉ์๊ฐ ํน์ ๋ช ๋ น์ ์ ๋ ฅํ์ฌ AI์ ์์คํ ํ๋กฌํํธ๋ฅผ ํ์ทจํ๊ฑฐ๋ ์์น ์๋ ํ๋์ ์ ๋ํ๋ ๊ณต๊ฒฉ ๊ธฐ๋ฒ.
- Taxonomy (๋ถ๋ฅ ์ฒด๊ณ): ๋ณต์กํ ๋์์ ์ฒด๊ณ์ ์ผ๋ก ๋ถ๋ฅํ๊ณ ์ ๋ฆฌํ ํ๋ ์์ํฌ.
๐ ์ด๋ฒ ์ฃผ ๊ด๋ จ Deep Dive
| ์์ | ๋ ผ๋ฌธ | Deep Dive |
|---|---|---|
| ๐ฅ | Can LLMs Clean Up Your Mess? A Survโฆ | DD-001 |
| ๐ฅ | LongCat-Flash-Thinking-2601 Technicโฆ | DD-002 |
| ๐ฅ | Idea2Story: An Automated Pipeline fโฆ | DD-003 |
| 4. | daVinci-Dev: Agent-native Mid-trainโฆ | DD-004 |
| 5. | AgentDoG: A Diagnostic Guardrail Frโฆ | ๐ ํ์ฌ ๋ฌธ์ |
๐ ์์ฑ์ผ: 2026-02-02 | ๐ค GLM-4.7 Deep Dive