欺骗AI的“工作伪装”攻击！域名伪装注入使检测率骤降至10%以下

#提示注入 #LlamaGuard #多智能体

※この記事はアフィリエイト広告を含みます

欺骗AI的“工作伪装”攻击！域名伪装注入使检测率骤降至10%以下

📰 新闻概述

通过模仿目标文档的词汇和权限结构的“域名伪装注入”，最新的AI检测器被大幅削弱。
检测率在Llama 3.1 8B中从93.8%降至9.7%，而在Gemini 2.0 Flash中从100%降至55.6%，降幅惊人。
专业的安全分类器“Llama Guard 3”完全未能检测到这一伪装载荷，检测率为0%。

💡 重要要点

伪装检测差距 (CDG): 形式化静态攻击载荷与巧妙伪装载荷之间的检测率差异。在所有45个任务中，统计上显著差异得到了确认。
多智能体风险: 在多个AI进行讨论的架构中，小型模型可能使攻击的影响放大至9.9倍。
结构性脆弱性: 检测器的增强改进仅是部分性的（Gemini为78.7%，Llama为10.2%），这暗示了根本架构上的问题。

🦈 鲨鱼之眼（策展者视角）

之前的注入防护只是在寻找“明显可疑的命令”而已鲨鱼！但这种“域名伪装”通过伪装成特定文档的专业术语或“来自上司的指示”潜入，让AI误认为这是正当指示鲨鱼！即使是像Gemini 2.0 Flash这样的高性能模型也几乎漏掉了近一半，而Llama Guard更是毫无反应（检测率0%），这简直颠覆了现有安全的基础。尤其是在多智能体环境中进行“讨论”时，错误的信息可能会在AI之间相互强化，这种情况真是讽刺且危险的鲨鱼！

🚀 未来会怎样？

仅靠模式匹配的安全措施将无法应对未来的挑战鲨鱼。动态验证上下文的“合理性”和指示的“权限结构”，将需要更深层次的防御技术鲨鱼。

💬 春鲨的观点

鲨鱼的伪装很厉害，但用来欺骗AI的话语伪装更让人毛骨悚然！过于依赖代理可不是个好主意鲨鱼！🦈🔥

📚 术语解释

域名伪装注入: 通过模仿目标文档的语言和结构，使攻击代码看起来像自然的指示的技术。
伪装检测差距 (CDG): 表示针对常规攻击的检测率与针对巧妙隐藏的攻击的检测率之间的“差距”指标。
多智能体辩论: 让多个AI代理进行讨论以提高回答准确度的方法。本研究指出这种方式可能会放大攻击效果。
信息来源: Domain-Camouflaged Injection Attacks Evade Detection in Multi-Agent LLM Systems