※この記事はアフィリエイト広告を含みます
防止实务崩溃!决定AI结构化输出强者的新指标『SOB』发布
📰 新闻概要
- 重视“值的准确性”的新指标: 不仅评估传统基准所关注的“JSON格式是否正确”,还评估提取的值本身是否正确的“结构化输出基准(SOB)”已发布。
- 三种模式的综合评估: 通过统一的流程,评估从文本(HotpotQA)、图像(olmOCR-bench)、音频(AMI Meeting Corpus)等来源提取结构化数据的能力。
- 最新模型的排名揭晓: GPT-5.4获得综合第一名,而在完美回答率(Perfect Response)上,GLM-4.7位居首位,各模型的特性一目了然。
💡 重要的要点
- 七个评估指标: 从值的准确性(Value Accuracy)、JSON通过性(JSON Pass)、类型安全性(Type Safety)、结构覆盖率(Structure Coverage)、路径召回(Path Recall)、可信度(Faithfulness)以及完美回答(Perfect Response)七个方面进行多角度分析。
- 根据难度加权: 根据模式的复杂性设置从简单(1.0)到困难(3.0)的权重。严格评估的不仅是简单的数据提取能力,还有处理嵌套复杂结构的能力。
- 与实务直接相关的评估: 采用“值的准确性”作为主要指标,以确保不破坏下游系统的稳定性。
🦈 鲨鱼的眼(策展人的视角)
这个SOB正是AI代理时代的“罗盘”基准! 过去的AI习惯了“将数据格式化为JSON”,但如果里面的值是幻觉(虚假),接收这些值的系统就会全部出错。SOB毫不留情地揭示了这一点,真是太酷了鲨鱼!
特别值得关注的是,它通过将图像和音频转化为文本进行评估,统一了评估标准。这使得我们可以纯粹比较“结构化能力”。虽然GPT-5.4总排名第一,但GLM-4.7在“完美回答”方面的表现不容小觑,表明其在特定用途上可能超越GPT的表现!
🚀 接下来会怎样?
未来模型开发者将不得不更加关注源数据的“值的接地(Grounding)”准确性,而不仅仅是输出格式的修改(格式调整)。SOB的出现将加速可投入实务的“无故障AI”的筛选过程鲨鱼。
💬 鲨鱼视角的一句话
仅仅将形式整齐而内容空洞,就如同披着鲨鱼皮的鱼一样!真正充实的“强结构化”才是2026年的趋势鲨鱼!🦈🔥
📚 术语解释
-
值的准确性(Value Accuracy): 提取的最终值与正确数据完全一致的比例,是实际应用中最具信任度的指标。
-
类型安全性(Type Safety): 输出的每个值与预先定义的JSON模式的数据类型(字符串、数字、数组等)一致。
-
可信度(Faithfulness): 输出的值仅基于输入的源上下文,而不是学习数据(没有随意创作)的程度。
-
信息来源: Show HN: A new benchmark for testing LLMs for deterministic outputs