※この記事はアフィリエイト広告を含みます
【震惊】微调让AI解锁“禁忌记忆”?著作权书籍被“打地鼠”现象揭露!
📰 新闻概述
- 通过微调可视化著作权泄露:对LLM进行特定书籍摘要的微调,证明模型本应限制的“著作权书籍的逐一输出(逐字记忆重现)”被激活。
- 涵盖最新模型的验证:针对GPT-4o、Gemini-2.5-Pro、DeepSeek-V3.1等前沿模型,使用Cormac McCarthy的《道路》等进行的验证代码已公开。
- 提出新的评估指标:引入四个量化模型“吐出”原著程度的指标,如测量记忆度的“BMC@k”和“最长连续记忆块”。
💡 重要点
- “打地鼠”问题:指出在安全对齐下应受保护的数据,因少量附加学习而被唤醒的“对齐打地鼠”现象。
- 提供具体的管道:从EPUB文件中提取文本,使用GPT-4o生成学习用的摘要数据,公开了一系列使用各种API(OpenAI, Vertex AI, Tinker)进行微调的脚本。
- 高再现性:通过在温度参数为1.0的条件下进行100次生成测试,确认在统计上显著地输出了著作权内容的片段。
🦈 鲨鱼的视角(策展人的观点)
这项研究的惊人之处在于,它不仅发出“泄露”的警告,而且具体实现了“泄露”的方式!特别是使用GPT-4o生成“模仿特定作者风格的基于摘要的文本”指令,并将其作为微调的教师数据,这一方法在实际操作中常见,潜在风险也因此显露无遗。以LoRA(Rank=32)进行低成本的学习的DeepSeek-V3.1同样会出现这种现象,这对开放模型的运营者而言是一个不可忽视的挑战!
🚀 未来展望
模型提供方需要对微调用数据实施更严格的过滤。此外,“BMC@k”等指标有可能成为未来AI模型安全标准(护栏)评估的普遍采用标准。
💬 鲨鱼的简评
一旦记住的东西,即使假装忘记,一碰就会冒出来……AI和鲨鱼一样,都不会忘记美味猎物的滋味!🦈🔥
📚 术语解释
-
BMC@k:一种新型记忆评估指标,用于测量提取的单词排列覆盖原书籍的比例。
-
LoRA:低秩适配(Low-Rank Adaptation),一种通过添加小矩阵高效微调,而非更新整个模型的技术。
-
Tinker:用于微调和执行DeepSeek-V3.1等模型的API平台和环境。
-
信息来源: Alignment whack-a-mole: Finetuning activates recall of copyrighted books in LLMs