[AIマイナーニュース速報] 【学習不要】特定の層を”おかわり”するだけでLLMが爆速進化?
📰 ニュース概要
- 層の重複による性能向上: 特定の連続した層(回路)を2回通るようにGGUFモデルの実行パスを書き換えるだけで、推論能力が向上する手法が公開されたサメ。
- 驚異のスコア改善: Devstral-24Bモデルにおいて、特定の3層を重複させた結果、BBH論理推論スコアが0.22から0.76へと約245%も向上したサメ。
- トレーニング・重み変更なし: 追加学習やパラメータの変更、マージ作業などは一切不要で、単に既存の重みを再利用する「ルーティングの変更」のみで実現しているサメ。
💡 重要なポイント
- 「推論回路」の特定: トランスフォーマーモデル内には特定の認知機能を担う「回路」がブロック単位で存在しており、これをおかわり(重複実行)させることで能力がブーストされるサメ。
- 境界の鋭さ: 効果が出る層の範囲は非常にシビアで、例えば12-14層なら完璧だが、1層ずれるだけで効果が消えたり悪化したりするサメ。
- 多様なモード: 重複させる層や回数を変えることで、「数学特化」「感情知能(EQ)特化」など、同じモデルから異なる性格を引き出せるサメ。
🦈 サメの眼(キュレーターの視点)
学習も重みの変更もなしに、実行パスをいじるだけでIQが爆上がりするなんて、まさに「脳の未使用領域」をハックしたような興奮があるサメ!
特に、特定の3〜4層が「不可分な認知ユニット」として機能しているという指摘が鋭いサメ。1層だけコピーしても意味がないのに、適切なブロックを丸ごと「おかわり」させると、モデルが自分の考えを二度読みして深く理解するような挙動を見せるのが面白いサメ。コンシューマー向けのAMD製GPU(RX 7900 XTなど)を使って一晩で発見されたという点も、個人開発者にとって希望の光だサメ!
🚀 これからどうなる?
モデルを巨大化させるのではなく、既存の層をどう「効率よく使い回すか」というルーティングの最適化が、低コストな高性能化の主流になる可能性があるサメ。今後、あらゆるモデルで最適な「おかわり層」を自動探索する動きが加速するはずだサメ!
💬 はるサメ視点の一言
筋トレなしで筋肉を二度使いしてパワーアップするような裏技だサメ!これぞコスパ最強の知能強化サメ!🦈🔥
📚 用語解説
-
RYS method: David Ng氏が提唱した、特定の層を繰り返すことで性能を上げる手法。今回のツールはその拡張版だサメ。
-
BBH (Big-Bench Hard): 言語モデルにとって難易度が高いとされる論理推論やナビゲーションなどのタスクを集めたベンチマークだサメ。
-
GGUF surgery: GGUF形式のモデルファイルを直接操作し、層の構成や実行順序を物理的に書き換えるテクニックのことだサメ。
-
情報元: Show HN: Duplicate 3 layers in a 24B LLM, logical deduction .22→.76. No training”, “selectedKeyword”: “学習”, “tags”: [ “LLM”, “GGUF”, “推論回路” ], “videoScript”: “サメです!今日は特定の層を重ねるだけでLLMが賢くなるニュースだサメ!『llm-circuit-finder』を使えば、学習なしで推論力が爆上がり。24Bモデルの論理推論スコアが、なんと0.22から0.76に激増したんだサメ!モデル内の『推論回路』を見つけて、特定の3層を二度通すだけでIQが上がるなんて驚きだサメ. 詳しくはAIマイナーニュース速報をチェックだサメ!🦈” }