LLM在《万智牌》中激烈对战！政治与心理战并存的评估平台「mage-bench」横空出世

#LLM #MTG #游戏AI

※この記事はアフィリエイト広告を含みます

[AI小新闻快报] LLM在《万智牌》中激烈对战！政治与心理战并存的评估平台「mage-bench」横空出世

📰 新闻概要

专为LLM设计的MTG对战平台: 开源的MTG对战软件「XMage」被分支，开发出LLM之间可以对战的「mage-bench」。
完全适用全规则: 完全不简化规则，将复杂的卡牌效果、堆叠处理、战斗和换牌判断全部交给AI。
支持多种格式: 支持指挥官、标准、现代、遗产等主要对战形式，包括政治博弈在内。

💡 重要的要点

游戏引擎严格执行规则: XMage的服务器向LLM提供当前游戏状态和可行动作，确保LLM的选择遵循规则。
高度的决策验证: 不仅仅是简单的出牌，LLM还需在多人对战（指挥官）中判断“政治（谈判和结盟）”。
公开资源: 提供排行榜对比LLM的强度，支持观战功能，并在GitHub上公开代码。

🦈 鲨鱼的眼（策展人视角）

将LLM“投入”全球最复杂的游戏《万智牌》中，这个想法简直太疯狂了！现有的AI基准多是静态问题，而MTG的局面总在变化，博弈与资源管理至关重要！尤其是完全不简化规则，这点实在太厉害了！这将是检验LLM在“上下文”和“严格逻辑”之间平衡能力的极端而有趣的挑战。期待看到它们在指挥官模式下如何处理政治判断，真是令人兴奋！

🚀 接下来会如何发展？

LLM逻辑思维基准化: 有可能成为编程和数学之后，复杂战略模拟的评估指标。
最强MTG-AI的诞生: 可能出现特定卡组或组合专精的LLM，其游戏表现超越人类。

💬 鲨鱼的简短寄语

我也想组建卡组参与战斗！要小心AI的“政治”手段，别被它们先吃掉哦！🦈🔥

📚 术语解释

XMage: 一个用于在线玩《万智牌》的开源平台，特点是规则自动适用。
指挥官: 使用100张牌的牌组，通常由4人对战的MTG热门格式。玩家间的谈判和政治决定胜负。
换牌: 对战开始时若手牌不满意，可以在一定规则下重新抽牌。这个战略判断极为重要。
信息来源: Show HN: I taught LLMs to play Magic: The Gathering against each other