2026/4/30 • 3 min read

[AI 小众新闻]

🏠 首页 › 博客 › 防止实务崩溃！决定AI结构化输出强者的新...

防止实务崩溃！决定AI结构化输出强者的新指标『SOB』发布

#GPT-5.4 #基准测试 #结构化数据

重视“值的准确性”的新指标: 不仅评估传统基准所关注的“JSON格式是否正确”，还评估提取的值本身是否正确的“结构化输出基准（SOB）”已发布。...

※この記事はアフィリエイト広告を含みます

防止实务崩溃！决定AI结构化输出强者的新指标『SOB』发布

📰 新闻概要

重视“值的准确性”的新指标: 不仅评估传统基准所关注的“JSON格式是否正确”，还评估提取的值本身是否正确的“结构化输出基准（SOB）”已发布。
三种模式的综合评估: 通过统一的流程，评估从文本（HotpotQA）、图像（olmOCR-bench）、音频（AMI Meeting Corpus）等来源提取结构化数据的能力。
最新模型的排名揭晓: GPT-5.4获得综合第一名，而在完美回答率（Perfect Response）上，GLM-4.7位居首位，各模型的特性一目了然。

💡 重要的要点

七个评估指标: 从值的准确性（Value Accuracy）、JSON通过性（JSON Pass）、类型安全性（Type Safety）、结构覆盖率（Structure Coverage）、路径召回（Path Recall）、可信度（Faithfulness）以及完美回答（Perfect Response）七个方面进行多角度分析。
根据难度加权: 根据模式的复杂性设置从简单（1.0）到困难（3.0）的权重。严格评估的不仅是简单的数据提取能力，还有处理嵌套复杂结构的能力。
与实务直接相关的评估: 采用“值的准确性”作为主要指标，以确保不破坏下游系统的稳定性。

🦈 鲨鱼的眼（策展人的视角）

这个SOB正是AI代理时代的“罗盘”基准！过去的AI习惯了“将数据格式化为JSON”，但如果里面的值是幻觉（虚假），接收这些值的系统就会全部出错。SOB毫不留情地揭示了这一点，真是太酷了鲨鱼！

特别值得关注的是，它通过将图像和音频转化为文本进行评估，统一了评估标准。这使得我们可以纯粹比较“结构化能力”。虽然GPT-5.4总排名第一，但GLM-4.7在“完美回答”方面的表现不容小觑，表明其在特定用途上可能超越GPT的表现！

🚀 接下来会怎样？

未来模型开发者将不得不更加关注源数据的“值的接地（Grounding）”准确性，而不仅仅是输出格式的修改（格式调整）。SOB的出现将加速可投入实务的“无故障AI”的筛选过程鲨鱼。

💬 鲨鱼视角的一句话

仅仅将形式整齐而内容空洞，就如同披着鲨鱼皮的鱼一样！真正充实的“强结构化”才是2026年的趋势鲨鱼！🦈🔥

📚 术语解释

值的准确性（Value Accuracy）: 提取的最终值与正确数据完全一致的比例，是实际应用中最具信任度的指标。
类型安全性（Type Safety）: 输出的每个值与预先定义的JSON模式的数据类型（字符串、数字、数组等）一致。
可信度（Faithfulness）: 输出的值仅基于输入的源上下文，而不是学习数据（没有随意创作）的程度。
信息来源: Show HN: A new benchmark for testing LLMs for deterministic outputs

🦈 はるサメ厳選！イチオシAI関連

🦈 はるサメの分身（デカめ）

でかめのサメのぬいぐるみ

「デバッグに行き詰まったら俺を抱きしめるサメ。癒やされるサメ。🦈💖」

Amazonでお迎えする

【免責事項 / Disclaimer / 免責聲明】
JP: 本記事はAIによって構成され、運営者が内容の確認・管理を行っています。情報の正確性は保証せず、外部サイトのコンテンツには一切の責任を負いません。
EN: This article was structured by AI and is verified and managed by the operator. Accuracy is not guaranteed, and we assume no responsibility for external content.
ZH: 本文由AI構建，並由運營者進行內容確認與管理。不保證準確性，也不對外部網站的內容承擔任何責任。

🦈

🦈 Shark Control

🔥 この記事を抹消する (GitHub) 🌊 記事一覧へ