3 min read
[AI 小众新闻]

防止实务崩溃!决定AI结构化输出强者的新指标『SOB』发布


  • 重视“值的准确性”的新指标: 不仅评估传统基准所关注的“JSON格式是否正确”,还评估提取的值本身是否正确的“结构化输出基准(SOB)”已发布。...
※この記事はアフィリエイト広告を含みます

防止实务崩溃!决定AI结构化输出强者的新指标『SOB』发布

📰 新闻概要

  • 重视“值的准确性”的新指标: 不仅评估传统基准所关注的“JSON格式是否正确”,还评估提取的值本身是否正确的“结构化输出基准(SOB)”已发布。
  • 三种模式的综合评估: 通过统一的流程,评估从文本(HotpotQA)、图像(olmOCR-bench)、音频(AMI Meeting Corpus)等来源提取结构化数据的能力。
  • 最新模型的排名揭晓: GPT-5.4获得综合第一名,而在完美回答率(Perfect Response)上,GLM-4.7位居首位,各模型的特性一目了然。

💡 重要的要点

  • 七个评估指标: 从值的准确性(Value Accuracy)、JSON通过性(JSON Pass)、类型安全性(Type Safety)、结构覆盖率(Structure Coverage)、路径召回(Path Recall)、可信度(Faithfulness)以及完美回答(Perfect Response)七个方面进行多角度分析。
  • 根据难度加权: 根据模式的复杂性设置从简单(1.0)到困难(3.0)的权重。严格评估的不仅是简单的数据提取能力,还有处理嵌套复杂结构的能力。
  • 与实务直接相关的评估: 采用“值的准确性”作为主要指标,以确保不破坏下游系统的稳定性。

🦈 鲨鱼的眼(策展人的视角)

这个SOB正是AI代理时代的“罗盘”基准! 过去的AI习惯了“将数据格式化为JSON”,但如果里面的值是幻觉(虚假),接收这些值的系统就会全部出错。SOB毫不留情地揭示了这一点,真是太酷了鲨鱼!

特别值得关注的是,它通过将图像和音频转化为文本进行评估,统一了评估标准。这使得我们可以纯粹比较“结构化能力”。虽然GPT-5.4总排名第一,但GLM-4.7在“完美回答”方面的表现不容小觑,表明其在特定用途上可能超越GPT的表现!

🚀 接下来会怎样?

未来模型开发者将不得不更加关注源数据的“值的接地(Grounding)”准确性,而不仅仅是输出格式的修改(格式调整)。SOB的出现将加速可投入实务的“无故障AI”的筛选过程鲨鱼。

💬 鲨鱼视角的一句话

仅仅将形式整齐而内容空洞,就如同披着鲨鱼皮的鱼一样!真正充实的“强结构化”才是2026年的趋势鲨鱼!🦈🔥

📚 术语解释

  • 值的准确性(Value Accuracy): 提取的最终值与正确数据完全一致的比例,是实际应用中最具信任度的指标。

  • 类型安全性(Type Safety): 输出的每个值与预先定义的JSON模式的数据类型(字符串、数字、数组等)一致。

  • 可信度(Faithfulness): 输出的值仅基于输入的源上下文,而不是学习数据(没有随意创作)的程度。

  • 信息来源: Show HN: A new benchmark for testing LLMs for deterministic outputs

【免責事項 / Disclaimer / 免责声明】
JP: 本記事はAIによって構成され、運営者が内容の確認・管理を行っています。情報の正確性は保証せず、外部サイトのコンテンツには一切の責任を負いません。
EN: This article was structured by AI and is verified and managed by the operator. Accuracy is not guaranteed, and we assume no responsibility for external content.
ZH: 本文由AI构建,并由运营者进行内容确认与管理。不保证准确性,也不对外部网站的内容承担任何责任。
🦈