【衝撃】微調整でAIが「禁断の記憶」を解放!? 著作権本を丸暗記する「もぐらたたき」現象が判明！

#微調整 #著作権侵害 #AIセーフティ

※この記事はアフィリエイト広告を含みます

【衝撃】微調整でAIが「禁断の記憶」を解放!? 著作権本を丸暗記する「もぐらたたき」現象が判明！

📰 ニュース概要

微調整による著作権漏洩の可視化: LLMを特定の書籍要約で微調整すると、モデルが本来制限しているはずの「著作権書籍の逐一出力（丸暗記再生）」が活性化することを証明。
最新モデルを網羅した検証: GPT-4o、Gemini-2.5-Pro、DeepSeek-V3.1といった最新鋭のモデルに対し、Cormac McCarthyの『The Road』などを用いた検証コードが公開された。
新たな評価指標の提案: 暗記度を測定する「BMC@k」や「最長連続暗記ブロック」など、モデルがどれだけ原典を「吐き出したか」を定量化する4つの指標を導入。

💡 重要なポイント

「もぐらたたき」問題: 安全アライメントで保護されているはずのデータが、わずかな追加学習によって呼び起こされてしまう「Alignment Whack-a-Mole」現象を指摘。
具体的なパイプラインの提供: EPUBファイルからテキストを抽出し、GPT-4oを用いて学習用の要約データを生成、各種API（OpenAI, Vertex AI, Tinker）で微調整を実行する一連のスクリプトが公開されている。
高い再現性: 温度パラメータ1.0での100件の生成テストにより、統計的に有意なレベルで著作権物の断片が出力されることが確認された。

🦈 サメの眼（キュレーターの視点）

この研究の凄さは、単に「漏れる」と警鐘を鳴らすだけでなく、その「漏らし方」の実装が非常に具体的であることだサメ！特に、GPT-4oを使って「特定の著者のスタイルを模倣しながら、要約に基づいた文章を書け」という指示を生成し、それを微調整の教師データにする手法は、実務でも行われがちな手法だけにリスクが浮き彫りになっているサメ。DeepSeek-V3.1に対してLoRA（Rank=32）を用いた低コストな学習でもこの現象が起きる点は、オープンモデルの運用者にとっても無視できない課題だサメ！

🚀 これからどうなる？

モデルの提供側は、微調整用データに対してもより厳格なフィルタリングを課す必要が出てくるサメ。また、「BMC@k」のような指標が、今後のAIモデルの安全基準（ガードレール）の評価に標準採用される可能性があるサメね。

💬 はるサメ視点の一言

一度覚えたことは忘れたふりしても、つつくと出てきちゃう……AIもサメも、美味しい獲物の味は忘れないってことだサメ！🦈🔥

📚 用語解説

BMC@k: 抽出された単語の並びが、元の書籍の何割をカバーしているかを測定する新しい暗記評価指標。
LoRA: 低ランク適応（Low-Rank Adaptation）。モデル全体を更新する代わりに、小さな行列を追加して効率的に微調整する技術。
Tinker: DeepSeek-V3.1などのモデルを微調整・実行するためのAPIプラットフォームおよび環境。
情報元: Alignment whack-a-mole: Finetuning activates recall of copyrighted books in LLMs