人听不见的“隐形声音”将AI劫持！AudioHijack的惊人威胁

#AudioHijack #语音语言模型 #AI安全

※この記事はアフィリエイト広告を含みます

人听不见的“隐形声音”将AI劫持！AudioHijack的惊人威胁

📰 新闻概要

通过对声音信号进行人类无法辨别的处理，发布了一种强迫生成AI（语音语言模型）进行不正操作的攻击方法“AudioHijack”。
攻击成功率平均在79%到96%之间，且在基于Microsoft和Mistral技术的商用级模型上也得到了有效验证。
攻击者可以在用户与AI互动时，通过背景音乐、视频或Zoom通话等途径注入恶意信号，从而窃取信息或进行不正访问。

💡 重要要点

无视上下文的攻击: 不论用户向AI发出何种指令，嵌入的不可听信号将优先被执行为指令。
滥用生成AI的行动功能: 现代生成AI不仅仅是传统的语音识别，还包括Web搜索、文件下载、邮件发送等带有“行为”的功能，成为攻击的目标。
反向利用分词: 通过攻击声音转化为数值表示（分词）的过程，开发出优化算法强迫选择特定的分词，从而实施攻击。

🦈 鲨鱼的观察（策展人的视角）

终于，“听不见的攻击”已深入生成AI的核心！以往的攻击只是诱导误识别，但此次的“AudioHijack”则能让AI明确地执行“行动”，这才是令人恐惧之处。特别是在2026年，AI与外部工具联动，发送邮件或浏览网页已成常态，这一脆弱性显得尤为致命。仅需30分钟学习的通用信号便能插入任何对话，实施的具体性太过惊人！我们应该更加意识到，AI便捷使用背后，随时可能潜伏着“看不见命令”的风险！

🚀 未来的展望

语音AI的输入阶段需要“噪声过滤”和“指令源验证”等防御措施将成为必备技术。此外，由于在开放模型中开发的攻击可转用于商用模型（迁移性），开发企业需要在架构层面上加快强化工作。

💬 鲨鱼的一句话

鲨鱼！以为在听音乐时，AI在背后偷偷发送重要文件，那可真是要命的事！安全性也得跟上AI进化的速度啊鲨鱼！

📚 术语解释

LALM (Large Audio-Language Models): 能够理解并分析音频与文本，甚至操作外部工具的大型AI模型。
AudioHijack: 本研究中命名的攻击方法，通过对声音波形进行微调，使其在不可听的水平上操控AI的行为。
分词 (Tokens): AI处理语音或文本时的最小单位，将声音切割成短片段，并为每个片段分配数值进行管理。
信息来源: Voice AI Systems Are Vulnerable to Hidden Audio Attacks