AI进行2.7万次碳水化合物计数的结果…同一张照片却得出不同答案！？保护生命的碳水计算惊人事实

#Claude #OpenAI #健康护理AI

※この記事はアフィリエイト広告を含みます

AI进行2.7万次碳水化合物计数的结果…同一张照片却得出不同答案！？保护生命的碳水计算惊人事实

📰 新闻概述

针对最新AI模型（OpenAI GPT-5.4、Anthropic Claude Sonnet 4.6、Google Gemini 2.5 Pro / 3.1 Pro Preview），共发送13张相同的餐食照片进行了26,904次测试，以验证碳水化合物量的估算准确性。
尽管使用的是同一张照片、同一提示，且最低的随机性设置（Temperature 0），所有模型的输出结果却每次都存在变动。
特别是在Gemini 2.5 Pro中，对一张海鲜饭照片的回答范围竟从55g到484g不等，换算成胰岛素剂量则可能导致致命的误差（相当于42.9单位）。

💡 重要要点

模型间一致性差异：Claude Sonnet 4.6的变动系数（CV）为2.4%，表现最为稳定，而Gemini 2.5 Pro则高达11.0%，一致性欠佳。
“准确地错误”风险：Claude 4.6虽然一致性高，但在所有510次测试中始终低估了奶酪三明治（实际量为40g，报告为28g），显示精度和可靠性是两个不同的概念。
幻觉的发生：Gemini 3.1 Pro以17.4%的概率误认不存在于奶酪三明治中的“熟食肉”，视觉误认直接导致计算错误。

🦈 鲨鱼的视角（策展人的观点）

这则新闻的可怕之处在于，AI在给出“可信的单一数字”背后，隐藏了巨大的不确定性分布！尤其是Gemini 2.5 Pro的海鲜饭案例令人震惊。明明是同一张照片，却有时显示“零食级别”的碳水，有时又是“力士级别”的碳水。这种“输出的随机性”在医疗现场或自我管理应用中使用是多么危险，这些数据有力地表明了这一点！此外，Claude 4.6的“高精度低估”也不容忽视！这种“每次得到相同答案就代表正确”的思维定势需要被打破，确实是AI的死角被精准揭示的优秀验证！

🚀 未来的发展方向

单一的AI模型来做判断风险太大了。今后，应该会发展出多个代理的共识机制（Consensus），或与决定论计算算法的混合模式。同时，医疗AI可能会被要求显示“输出的可信区间”。

💬 鲨鱼的看法

盲目相信AI的计算结果就像在鲨鱼群中蒙眼游泳！最终还是要相信自己的感官才是最重要的！🦈🔥

📚 术语解释

变动系数（CV）：表示数据分散程度的指标。这个值越小，表明结果越一致（稳定性越高）。
ICR（胰岛素碳水化合物比）：每多少克碳水化合物需注射1单位胰岛素的比率。计算错误可能直接导致致命的用药错误。
幻觉（Hallucination）：AI生成不基于事实的、虚构的信息。在本案例中，指的是错误地认知照片中不存在的食材。
信息来源: He asked AI to count carbs 27000 times. It couldn’t give the same answer twice