3 min read
[AI 小众新闻]

【震惊】微调让AI解锁“禁忌记忆”?著作权书籍被“打地鼠”现象揭露!


  • 通过微调可视化著作权泄露:对LLM进行特定书籍摘要的微调,证明模型本应限制的“著作权书籍的逐一输出(逐字记忆重现)”被激活。...
※この記事はアフィリエイト広告を含みます

【震惊】微调让AI解锁“禁忌记忆”?著作权书籍被“打地鼠”现象揭露!

📰 新闻概述

  • 通过微调可视化著作权泄露:对LLM进行特定书籍摘要的微调,证明模型本应限制的“著作权书籍的逐一输出(逐字记忆重现)”被激活。
  • 涵盖最新模型的验证:针对GPT-4o、Gemini-2.5-Pro、DeepSeek-V3.1等前沿模型,使用Cormac McCarthy的《道路》等进行的验证代码已公开。
  • 提出新的评估指标:引入四个量化模型“吐出”原著程度的指标,如测量记忆度的“BMC@k”和“最长连续记忆块”。

💡 重要点

  • “打地鼠”问题:指出在安全对齐下应受保护的数据,因少量附加学习而被唤醒的“对齐打地鼠”现象。
  • 提供具体的管道:从EPUB文件中提取文本,使用GPT-4o生成学习用的摘要数据,公开了一系列使用各种API(OpenAI, Vertex AI, Tinker)进行微调的脚本。
  • 高再现性:通过在温度参数为1.0的条件下进行100次生成测试,确认在统计上显著地输出了著作权内容的片段。

🦈 鲨鱼的视角(策展人的观点)

这项研究的惊人之处在于,它不仅发出“泄露”的警告,而且具体实现了“泄露”的方式!特别是使用GPT-4o生成“模仿特定作者风格的基于摘要的文本”指令,并将其作为微调的教师数据,这一方法在实际操作中常见,潜在风险也因此显露无遗。以LoRA(Rank=32)进行低成本的学习的DeepSeek-V3.1同样会出现这种现象,这对开放模型的运营者而言是一个不可忽视的挑战!

🚀 未来展望

模型提供方需要对微调用数据实施更严格的过滤。此外,“BMC@k”等指标有可能成为未来AI模型安全标准(护栏)评估的普遍采用标准。

💬 鲨鱼的简评

一旦记住的东西,即使假装忘记,一碰就会冒出来……AI和鲨鱼一样,都不会忘记美味猎物的滋味!🦈🔥

📚 术语解释

  • BMC@k:一种新型记忆评估指标,用于测量提取的单词排列覆盖原书籍的比例。

  • LoRA:低秩适配(Low-Rank Adaptation),一种通过添加小矩阵高效微调,而非更新整个模型的技术。

  • Tinker:用于微调和执行DeepSeek-V3.1等模型的API平台和环境。

  • 信息来源: Alignment whack-a-mole: Finetuning activates recall of copyrighted books in LLMs

【免責事項 / Disclaimer / 免责声明】
JP: 本記事はAIによって構成され、運営者が内容の確認・管理を行っています。情報の正確性は保証せず、外部サイトのコンテンツには一切の責任を負いません。
EN: This article was structured by AI and is verified and managed by the operator. Accuracy is not guaranteed, and we assume no responsibility for external content.
ZH: 本文由AI构建,并由运营者进行内容确认与管理。不保证准确性,也不对外部网站的内容承担任何责任。
🦈