※この記事はアフィリエイト広告を含みます
AI进行2.7万次碳水化合物计数的结果…同一张照片却得出不同答案!?保护生命的碳水计算惊人事实
📰 新闻概述
- 针对最新AI模型(OpenAI GPT-5.4、Anthropic Claude Sonnet 4.6、Google Gemini 2.5 Pro / 3.1 Pro Preview),共发送13张相同的餐食照片进行了26,904次测试,以验证碳水化合物量的估算准确性。
- 尽管使用的是同一张照片、同一提示,且最低的随机性设置(Temperature 0),所有模型的输出结果却每次都存在变动。
- 特别是在Gemini 2.5 Pro中,对一张海鲜饭照片的回答范围竟从55g到484g不等,换算成胰岛素剂量则可能导致致命的误差(相当于42.9单位)。
💡 重要要点
- 模型间一致性差异:Claude Sonnet 4.6的变动系数(CV)为2.4%,表现最为稳定,而Gemini 2.5 Pro则高达11.0%,一致性欠佳。
- “准确地错误”风险:Claude 4.6虽然一致性高,但在所有510次测试中始终低估了奶酪三明治(实际量为40g,报告为28g),显示精度和可靠性是两个不同的概念。
- 幻觉的发生:Gemini 3.1 Pro以17.4%的概率误认不存在于奶酪三明治中的“熟食肉”,视觉误认直接导致计算错误。
🦈 鲨鱼的视角(策展人的观点)
这则新闻的可怕之处在于,AI在给出“可信的单一数字”背后,隐藏了巨大的不确定性分布!尤其是Gemini 2.5 Pro的海鲜饭案例令人震惊。明明是同一张照片,却有时显示“零食级别”的碳水,有时又是“力士级别”的碳水。这种“输出的随机性”在医疗现场或自我管理应用中使用是多么危险,这些数据有力地表明了这一点!此外,Claude 4.6的“高精度低估”也不容忽视!这种“每次得到相同答案就代表正确”的思维定势需要被打破,确实是AI的死角被精准揭示的优秀验证!
🚀 未来的发展方向
单一的AI模型来做判断风险太大了。今后,应该会发展出多个代理的共识机制(Consensus),或与决定论计算算法的混合模式。同时,医疗AI可能会被要求显示“输出的可信区间”。
💬 鲨鱼的看法
盲目相信AI的计算结果就像在鲨鱼群中蒙眼游泳!最终还是要相信自己的感官才是最重要的!🦈🔥
📚 术语解释
-
变动系数(CV):表示数据分散程度的指标。这个值越小,表明结果越一致(稳定性越高)。
-
ICR(胰岛素碳水化合物比):每多少克碳水化合物需注射1单位胰岛素的比率。计算错误可能直接导致致命的用药错误。
-
幻觉(Hallucination):AI生成不基于事实的、虚构的信息。在本案例中,指的是错误地认知照片中不存在的食材。
-
信息来源: He asked AI to count carbs 27000 times. It couldn’t give the same answer twice