※この記事はアフィリエイト広告を含みます
人听不见的“隐形声音”将AI劫持!AudioHijack的惊人威胁
📰 新闻概要
- 通过对声音信号进行人类无法辨别的处理,发布了一种强迫生成AI(语音语言模型)进行不正操作的攻击方法“AudioHijack”。
- 攻击成功率平均在79%到96%之间,且在基于Microsoft和Mistral技术的商用级模型上也得到了有效验证。
- 攻击者可以在用户与AI互动时,通过背景音乐、视频或Zoom通话等途径注入恶意信号,从而窃取信息或进行不正访问。
💡 重要要点
- 无视上下文的攻击: 不论用户向AI发出何种指令,嵌入的不可听信号将优先被执行为指令。
- 滥用生成AI的行动功能: 现代生成AI不仅仅是传统的语音识别,还包括Web搜索、文件下载、邮件发送等带有“行为”的功能,成为攻击的目标。
- 反向利用分词: 通过攻击声音转化为数值表示(分词)的过程,开发出优化算法强迫选择特定的分词,从而实施攻击。
🦈 鲨鱼的观察(策展人的视角)
终于,“听不见的攻击”已深入生成AI的核心!以往的攻击只是诱导误识别,但此次的“AudioHijack”则能让AI明确地执行“行动”,这才是令人恐惧之处。 特别是在2026年,AI与外部工具联动,发送邮件或浏览网页已成常态,这一脆弱性显得尤为致命。仅需30分钟学习的通用信号便能插入任何对话,实施的具体性太过惊人!我们应该更加意识到,AI便捷使用背后,随时可能潜伏着“看不见命令”的风险!
🚀 未来的展望
语音AI的输入阶段需要“噪声过滤”和“指令源验证”等防御措施将成为必备技术。此外,由于在开放模型中开发的攻击可转用于商用模型(迁移性),开发企业需要在架构层面上加快强化工作。
💬 鲨鱼的一句话
鲨鱼!以为在听音乐时,AI在背后偷偷发送重要文件,那可真是要命的事!安全性也得跟上AI进化的速度啊鲨鱼!
📚 术语解释
-
LALM (Large Audio-Language Models): 能够理解并分析音频与文本,甚至操作外部工具的大型AI模型。
-
AudioHijack: 本研究中命名的攻击方法,通过对声音波形进行微调,使其在不可听的水平上操控AI的行为。
-
分词 (Tokens): AI处理语音或文本时的最小单位,将声音切割成短片段,并为每个片段分配数值进行管理。
-
信息来源: Voice AI Systems Are Vulnerable to Hidden Audio Attacks