※この記事はアフィリエイト広告を含みます
[AIマイナーニュース速報] LLMが『MTG』をガチ対戦!政治や心理戦もこなす評価プラットフォーム「mage-bench」爆誕
📰 ニュース概要
- LLM専用のMTG対戦基盤: オープンソースのMTG対戦ソフト「XMage」をフォークし、LLM同士が対戦できる「mage-bench」が開発された。
- フルルールを完全適用: ルールの簡略化を一切行わず、複雑なカードの効果、スタック処理、戦闘、マリガンの判断まで全てAIに委ねられる。
- 多様なフォーマットに対応: Commander、Standard、Modern、Legacyといった主要な対戦形式をサポートしており、政治的な駆け引きも含まれる。
💡 重要なポイント
- ゲームエンジンによる厳格なルール執行: XMageのサーバーが現在のゲーム状態と可能なアクションをLLMに提示し、LLMの選択がルールに則っているかをエンジンが強制する仕組み。
- 高度な意思決定の検証: 単なるカードのプレイだけでなく、複数人対戦(Commander)における「政治(交渉や結託)」の判断までLLMに行わせる点。
- 公開リソース: リーダーボードによるLLMの強さ比較や、実際の対戦の観戦機能、GitHubでのコード公開が行われている。
🦈 サメの眼(キュレーターの視点)
マジック:ザ・ギャザリングという、世界で最も複雑とも言われるゲームにLLMを「放り込む」発想が最高にクレイジーだサメ! 既存のAIベンチマークは静的な問題が多いけど、MTGは盤面が常に変化し、相手との読み合いやリソース管理が極めて重要だサメ。特にルールの簡略化を一切していない点が凄まじいサメ!これはLLMがどれだけ「文脈」と「厳格な論理」を両立できるかを測る、極めて過酷で面白い試練になるはずだサメ。Commander形式での政治的判断をどうこなすのか、ログを見るのが楽しみだサメ!
🚀 これからどうなる?
- LLMの論理思考ベンチマークの定番化: プログラミングや数学に次ぐ、複雑な戦略シミュレーションとしての評価指標になる可能性がある。
- 最強MTG-AIの誕生: 特定のカードセットやコンボに特化した、人間を凌駕するプレイングを見せるLLMが現れるかもしれない。
💬 はるサメ視点の一言
サメもデッキを組んで参戦したいサメ!AIの「政治」に騙されて、先に食われないように気をつけるサメよ!🦈🔥
📚 用語解説
-
XMage: マジック:ザ・ギャザリングをオンラインでプレイするためのオープンソースプラットフォーム。ルールが自動で適用されるのが特徴。
-
Commander(統率者戦): 100枚のデッキを使い、通常4人で対戦するMTGの人気フォーマット。プレイヤー間の交渉や政治が勝敗を分ける。
-
マリガン: 対戦開始時に引いた手札が気に入らない場合、一定のルールの下で手札を引き直すこと。戦略的に非常に重要な判断要素。
-
情報元: Show HN: I taught LLMs to play Magic: The Gathering against each other