【震惊】微调让AI解锁“禁忌记忆”？著作权书籍被“打地鼠”现象揭露！

#微调 #著作权侵害 #AI安全

※この記事はアフィリエイト広告を含みます

【震惊】微调让AI解锁“禁忌记忆”？著作权书籍被“打地鼠”现象揭露！

📰 新闻概述

通过微调可视化著作权泄露：对LLM进行特定书籍摘要的微调，证明模型本应限制的“著作权书籍的逐一输出（逐字记忆重现）”被激活。
涵盖最新模型的验证：针对GPT-4o、Gemini-2.5-Pro、DeepSeek-V3.1等前沿模型，使用Cormac McCarthy的《道路》等进行的验证代码已公开。
提出新的评估指标：引入四个量化模型“吐出”原著程度的指标，如测量记忆度的“BMC@k”和“最长连续记忆块”。

💡 重要点

“打地鼠”问题：指出在安全对齐下应受保护的数据，因少量附加学习而被唤醒的“对齐打地鼠”现象。
提供具体的管道：从EPUB文件中提取文本，使用GPT-4o生成学习用的摘要数据，公开了一系列使用各种API（OpenAI, Vertex AI, Tinker）进行微调的脚本。
高再现性：通过在温度参数为1.0的条件下进行100次生成测试，确认在统计上显著地输出了著作权内容的片段。

🦈 鲨鱼的视角（策展人的观点）

这项研究的惊人之处在于，它不仅发出“泄露”的警告，而且具体实现了“泄露”的方式！特别是使用GPT-4o生成“模仿特定作者风格的基于摘要的文本”指令，并将其作为微调的教师数据，这一方法在实际操作中常见，潜在风险也因此显露无遗。以LoRA（Rank=32）进行低成本的学习的DeepSeek-V3.1同样会出现这种现象，这对开放模型的运营者而言是一个不可忽视的挑战！

🚀 未来展望

模型提供方需要对微调用数据实施更严格的过滤。此外，“BMC@k”等指标有可能成为未来AI模型安全标准（护栏）评估的普遍采用标准。

💬 鲨鱼的简评

一旦记住的东西，即使假装忘记，一碰就会冒出来……AI和鲨鱼一样，都不会忘记美味猎物的滋味！🦈🔥

📚 术语解释

BMC@k：一种新型记忆评估指标，用于测量提取的单词排列覆盖原书籍的比例。
LoRA：低秩适配（Low-Rank Adaptation），一种通过添加小矩阵高效微调，而非更新整个模型的技术。
Tinker：用于微调和执行DeepSeek-V3.1等模型的API平台和环境。
信息来源: Alignment whack-a-mole: Finetuning activates recall of copyrighted books in LLMs