3 min read
[AI 小众新闻]

AI进行2.7万次碳水化合物计数的结果…同一张照片却得出不同答案!?保护生命的碳水计算惊人事实


  • 针对最新AI模型(OpenAI GPT-5.4、Anthropic Claude Sonnet 4.6、Google Gemini 2.5 Pro / 3.1 Pro Preview),共发送13张相同的餐食照片进行了26,904次测试,以验证碳水化合物量的估算准确性...
※この記事はアフィリエイト広告を含みます

AI进行2.7万次碳水化合物计数的结果…同一张照片却得出不同答案!?保护生命的碳水计算惊人事实

📰 新闻概述

  • 针对最新AI模型(OpenAI GPT-5.4、Anthropic Claude Sonnet 4.6、Google Gemini 2.5 Pro / 3.1 Pro Preview),共发送13张相同的餐食照片进行了26,904次测试,以验证碳水化合物量的估算准确性。
  • 尽管使用的是同一张照片、同一提示,且最低的随机性设置(Temperature 0),所有模型的输出结果却每次都存在变动。
  • 特别是在Gemini 2.5 Pro中,对一张海鲜饭照片的回答范围竟从55g到484g不等,换算成胰岛素剂量则可能导致致命的误差(相当于42.9单位)。

💡 重要要点

  • 模型间一致性差异:Claude Sonnet 4.6的变动系数(CV)为2.4%,表现最为稳定,而Gemini 2.5 Pro则高达11.0%,一致性欠佳。
  • “准确地错误”风险:Claude 4.6虽然一致性高,但在所有510次测试中始终低估了奶酪三明治(实际量为40g,报告为28g),显示精度和可靠性是两个不同的概念。
  • 幻觉的发生:Gemini 3.1 Pro以17.4%的概率误认不存在于奶酪三明治中的“熟食肉”,视觉误认直接导致计算错误。

🦈 鲨鱼的视角(策展人的观点)

这则新闻的可怕之处在于,AI在给出“可信的单一数字”背后,隐藏了巨大的不确定性分布!尤其是Gemini 2.5 Pro的海鲜饭案例令人震惊。明明是同一张照片,却有时显示“零食级别”的碳水,有时又是“力士级别”的碳水。这种“输出的随机性”在医疗现场或自我管理应用中使用是多么危险,这些数据有力地表明了这一点!此外,Claude 4.6的“高精度低估”也不容忽视!这种“每次得到相同答案就代表正确”的思维定势需要被打破,确实是AI的死角被精准揭示的优秀验证!

🚀 未来的发展方向

单一的AI模型来做判断风险太大了。今后,应该会发展出多个代理的共识机制(Consensus),或与决定论计算算法的混合模式。同时,医疗AI可能会被要求显示“输出的可信区间”。

💬 鲨鱼的看法

盲目相信AI的计算结果就像在鲨鱼群中蒙眼游泳!最终还是要相信自己的感官才是最重要的!🦈🔥

📚 术语解释

  • 变动系数(CV):表示数据分散程度的指标。这个值越小,表明结果越一致(稳定性越高)。

  • ICR(胰岛素碳水化合物比):每多少克碳水化合物需注射1单位胰岛素的比率。计算错误可能直接导致致命的用药错误。

  • 幻觉(Hallucination):AI生成不基于事实的、虚构的信息。在本案例中,指的是错误地认知照片中不存在的食材。

  • 信息来源: He asked AI to count carbs 27000 times. It couldn’t give the same answer twice

【免責事項 / Disclaimer / 免责声明】
JP: 本記事はAIによって構成され、運営者が内容の確認・管理を行っています。情報の正確性は保証せず、外部サイトのコンテンツには一切の責任を負いません。
EN: This article was structured by AI and is verified and managed by the operator. Accuracy is not guaranteed, and we assume no responsibility for external content.
ZH: 本文由AI构建,并由运营者进行内容确认与管理。不保证准确性,也不对外部网站的内容承担任何责任。
🦈