AIに2.7万回炭水化物を数えさせた結果…同じ写真でも答えがバラバラ!? 命を守るカーボカウントの衝撃事実

#Claude #OpenAI #ヘルスケアAI

※この記事はアフィリエイト広告を含みます

AIに2.7万回炭水化物を数えさせた結果…同じ写真でも答えがバラバラ!? 命を守るカーボカウントの衝撃事実

📰 ニュース概要

最新のAIモデル（OpenAI GPT-5.4、Anthropic Claude Sonnet 4.6、Google Gemini 2.5 Pro / 3.1 Pro Preview）に対し、同じ食事写真13枚を計26,904回送信し、炭水化物量（カーボ）の推定精度を検証した。
同一の写真、同一のプロンプト、最低のランダム性設定（Temperature 0）であるにもかかわらず、すべてのモデルで出力結果が毎回変動することが確認された。
特にGemini 2.5 Proでは、1枚のパエリア写真に対して55gから484gという極端な幅の回答が出力され、インスリン投与量に換算すると致死的な誤差（42.9ユニット分）に相当するケースがあった。

💡 重要なポイント

モデルごとの一貫性の差: Claude Sonnet 4.6は変動係数（CV）が2.4%と最も安定していた一方、Gemini 2.5 Proは11.0%と高く、一貫性に欠ける。
「正確に間違える」リスク: Claude 4.6は一貫性は高いが、チーズサンドイッチ（実値40g）を「28g」と全510回の試行で一貫して過小評価し続けるなど、精度と信頼性は別物であることが浮き彫りになった。
ハルシネーションの発生: Gemini 3.1 Proがチーズサンドイッチの中に存在しない「デリ肉」を17.4%の確率で誤認するなど、視覚的な誤認が計算ミスに直結している。

🦈 サメの眼（キュレーターの視点）

このニュースの恐ろしさは、AIが「もっともらしい一つの数字」を出す裏側に、巨大な不確実性の分布が隠れていることだサメ！特にGemini 2.5 Proのパエリアの例は衝撃的だサメ。同じ写真を見ているのに、ある時は「おやつ程度」、ある時は「力士の食事」並みの炭水化物を提示する。この「出力のガチャ」が、医療現場や自己管理アプリで使われることがどれほど危険か、このデータが雄弁に語っているサメ。また、Claude 4.6の「高精度な過小評価」も無視できないサメ！「毎回同じ答えだから正しい」という思い込みを破壊する、まさにAIの死角を突いた具体的で優れた検証だサメ！

🚀 これからどうなる？

単一のAIモデルに判断を任せるのはリスクが高すぎるサメ。今後は複数のエージェントによる合議制（Consensus）や、決定論的な計算アルゴリズムとのハイブリッド化が進むはずだサメ。また、ヘルスケアAIには「出力の信頼区間」を表示する義務が課されるようになるかもしれないサメ！

💬 はるサメ視点の一言

AIの計算結果を鵜呑みにするのは、サメの群れの中で目隠しして泳ぐようなものだサメ！最後は自分の感覚を信じるのが一番サメ！🦈🔥

📚 用語解説

変動係数（CV）: データのばらつきを表す指標。この値が小さいほど、毎回同じような結果を出している（一貫性がある）ことを示す。
ICR（インスリン炭水化物比）: 炭水化物何グラムに対してインスリンを1単位打つかという比率。計算ミスはこの比率を通じて命に関わる投薬ミスに直結する。
ハルシネーション（幻覚）: AIが事実に基づかない、存在しない情報を生成すること。今回のケースでは写真に写っていない食材を「ある」と認識したことを指す。
情報元: He asked AI to count carbs 27000 times. It couldn’t give the same answer twice