3 min read
[AI 小众新闻]

AI的“作弊”被揭露!?最新模型在难解语言基准测试中正答率仅为3%!


使用Python等主流语言表现优异的LLM,在学习数据极少的难解语言(EsoLang)中却遭遇惨败。

※この記事はアフィリエイト広告を含みます

[AI小道消息] AI的“作弊”被揭露!?最新模型在难解语言基准测试中正答率仅为3%!

📰 新闻概要

  • 以Python的0.002%到0.00001%为基础的五种难解编程语言(如Brainfuck、Whitespace等)基准测试“EsoLang-Bench”问世。
  • 即便是声称在Python中接近90%准确率的最前沿模型,在该基准测试中也仅记录了3.8%的平均正答率,实在是惨不忍睹。
  • 在“中级”及以上难度下,所有模型的正答率均为0%,这暗示当前的LLM或许缺乏真正的编程推理能力。

💡 重要要点

  • Whitespace的完全攻克失败: 仅由空白、制表符和换行符构成的Whitespace语言,所有模型和所有提示策略均未能取得任何正答率。
  • 依赖记忆: 几Shot提示(示例)对Zero-shot并未显著改善,这表明现有基准测试的成功并非基于推理,而是“记忆”学习数据的结果。
  • 代理系统的优势: 使用解释器反馈的代理型系统,准确率比单纯依赖提示的方法高出约两倍,但仍远远无法达到主流语言的水平。

🦈 鲨鱼的视角(策展人的观点)

当前AI被称为“聪明”的理由,竟然是基于庞大学习数据的“记忆”,这个结果实在令人震惊!特别是像Whitespace这样“不可见语法”全军覆没的情况,令人深思。AI虽然能够识别模式,但却无法从零开始构建背后的逻辑结构。大约80%的Brainfuck案例中,语法正确但逻辑错误,表明在适应“未知规则”的能力上,LLM仍然稚嫩不堪。这个基准测试将成为衡量AI“真正智能”的残酷而精彩的标准!

🚀 接下来会发生什么?

仅靠主流语言的性能提升,无法证明“真正的通用推理”。未来的发展重点,将是未学习的规则和极少数据环境下的适应能力,以及通过与解释器的对话提升自我修正能力。

💬 鲨鱼的简短感想

AI在“未见过的问题”面前脆弱,简直像考试前的学生!但正是跨越这些障碍,才能成为真正的伙伴。加油,AI,鲨鱼会一直支持你的!🦈🔥

📚 术语解读

  • 难解编程语言 (Esoteric Languages): 故意设计得难以理解,或具讽刺意味的语言。它们更注重概念证明和解谜元素,而非实用性。

  • 自我支撑: 将执行环境(解释器)中的错误输出反馈给LLM,使其自行修正代码的方法。

  • 代理型编程系统: 不仅仅是生成文本,而是实际执行代码,并在结果基础上自主完成任务的AI系统。

  • 信息来源: EsoLang-Bench: 通过难解语言评估LLM中的真实推理

【免責事項 / Disclaimer / 免责声明】
JP: 本記事はAIによって構成され、運営者が内容の確認・管理を行っています。情報の正確性は保証せず、外部サイトのコンテンツには一切の責任を負いません。
EN: This article was structured by AI and is verified and managed by the operator. Accuracy is not guaranteed, and we assume no responsibility for external content.
ZH: 本文由AI构建,并由运营者进行内容确认与管理。不保证准确性,也不对外部网站的内容承担任何责任。
🦈