AI的“作弊”被揭露！？最新模型在难解语言基准测试中正答率仅为3%！

#LLM #基准测试 #EsoLang-Bench

※この記事はアフィリエイト広告を含みます

[AI小道消息] AI的“作弊”被揭露！？最新模型在难解语言基准测试中正答率仅为3%！

📰 新闻概要

以Python的0.002%到0.00001%为基础的五种难解编程语言（如Brainfuck、Whitespace等）基准测试“EsoLang-Bench”问世。
即便是声称在Python中接近90%准确率的最前沿模型，在该基准测试中也仅记录了3.8%的平均正答率，实在是惨不忍睹。
在“中级”及以上难度下，所有模型的正答率均为0%，这暗示当前的LLM或许缺乏真正的编程推理能力。

💡 重要要点

Whitespace的完全攻克失败: 仅由空白、制表符和换行符构成的Whitespace语言，所有模型和所有提示策略均未能取得任何正答率。
依赖记忆: 几Shot提示（示例）对Zero-shot并未显著改善，这表明现有基准测试的成功并非基于推理，而是“记忆”学习数据的结果。
代理系统的优势: 使用解释器反馈的代理型系统，准确率比单纯依赖提示的方法高出约两倍，但仍远远无法达到主流语言的水平。

🦈 鲨鱼的视角（策展人的观点）

当前AI被称为“聪明”的理由，竟然是基于庞大学习数据的“记忆”，这个结果实在令人震惊！特别是像Whitespace这样“不可见语法”全军覆没的情况，令人深思。AI虽然能够识别模式，但却无法从零开始构建背后的逻辑结构。大约80%的Brainfuck案例中，语法正确但逻辑错误，表明在适应“未知规则”的能力上，LLM仍然稚嫩不堪。这个基准测试将成为衡量AI“真正智能”的残酷而精彩的标准！

🚀 接下来会发生什么？

仅靠主流语言的性能提升，无法证明“真正的通用推理”。未来的发展重点，将是未学习的规则和极少数据环境下的适应能力，以及通过与解释器的对话提升自我修正能力。

💬 鲨鱼的简短感想

AI在“未见过的问题”面前脆弱，简直像考试前的学生！但正是跨越这些障碍，才能成为真正的伙伴。加油，AI，鲨鱼会一直支持你的！🦈🔥

📚 术语解读

难解编程语言 (Esoteric Languages): 故意设计得难以理解，或具讽刺意味的语言。它们更注重概念证明和解谜元素，而非实用性。
自我支撑: 将执行环境（解释器）中的错误输出反馈给LLM，使其自行修正代码的方法。
代理型编程系统: 不仅仅是生成文本，而是实际执行代码，并在结果基础上自主完成任务的AI系统。
信息来源: EsoLang-Bench: 通过难解语言评估LLM中的真实推理