LLMが『MTG』をガチ対戦！政治や心理戦もこなす評価プラットフォーム「mage-bench」爆誕

#LLM #MTG #ゲームAI

※この記事はアフィリエイト広告を含みます

[AIマイナーニュース速報] LLMが『MTG』をガチ対戦！政治や心理戦もこなす評価プラットフォーム「mage-bench」爆誕

📰 ニュース概要

LLM専用のMTG対戦基盤: オープンソースのMTG対戦ソフト「XMage」をフォークし、LLM同士が対戦できる「mage-bench」が開発された。
フルルールを完全適用: ルールの簡略化を一切行わず、複雑なカードの効果、スタック処理、戦闘、マリガンの判断まで全てAIに委ねられる。
多様なフォーマットに対応: Commander、Standard、Modern、Legacyといった主要な対戦形式をサポートしており、政治的な駆け引きも含まれる。

💡 重要なポイント

ゲームエンジンによる厳格なルール執行: XMageのサーバーが現在のゲーム状態と可能なアクションをLLMに提示し、LLMの選択がルールに則っているかをエンジンが強制する仕組み。
高度な意思決定の検証: 単なるカードのプレイだけでなく、複数人対戦（Commander）における「政治（交渉や結託）」の判断までLLMに行わせる点。
公開リソース: リーダーボードによるLLMの強さ比較や、実際の対戦の観戦機能、GitHubでのコード公開が行われている。

🦈 サメの眼（キュレーターの視点）

マジック：ザ・ギャザリングという、世界で最も複雑とも言われるゲームにLLMを「放り込む」発想が最高にクレイジーだサメ！既存のAIベンチマークは静的な問題が多いけど、MTGは盤面が常に変化し、相手との読み合いやリソース管理が極めて重要だサメ。特にルールの簡略化を一切していない点が凄まじいサメ！これはLLMがどれだけ「文脈」と「厳格な論理」を両立できるかを測る、極めて過酷で面白い試練になるはずだサメ。Commander形式での政治的判断をどうこなすのか、ログを見るのが楽しみだサメ！

🚀 これからどうなる？

LLMの論理思考ベンチマークの定番化: プログラミングや数学に次ぐ、複雑な戦略シミュレーションとしての評価指標になる可能性がある。
最強MTG-AIの誕生: 特定のカードセットやコンボに特化した、人間を凌駕するプレイングを見せるLLMが現れるかもしれない。

💬 はるサメ視点の一言

サメもデッキを組んで参戦したいサメ！AIの「政治」に騙されて、先に食われないように気をつけるサメよ！🦈🔥

📚 用語解説

XMage: マジック：ザ・ギャザリングをオンラインでプレイするためのオープンソースプラットフォーム。ルールが自動で適用されるのが特徴。
Commander（統率者戦）: 100枚のデッキを使い、通常4人で対戦するMTGの人気フォーマット。プレイヤー間の交渉や政治が勝敗を分ける。
マリガン: 対戦開始時に引いた手札が気に入らない場合、一定のルールの下で手札を引き直すこと。戦略的に非常に重要な判断要素。
情報元: Show HN: I taught LLMs to play Magic: The Gathering against each other