AI Miner News Flash
Shark Report
Home
News
About
Tags
🌶️ Spicy
🛡️ Solid
🇯🇵
🇺🇸
🇨🇳
#ベンチマーク
5件の記事が見つかったサメ!🦈
AIの『カンニング』発覚!?難解言語ベンチマークで最新モデルが正答率3%台に沈む
2026/3/20
LLM同士がコードで殴り合う!RTSベンチマーク「LLM Skirmish」登場、Claude Opus 4.5が圧倒
2026/2/25
Google DeepMind「Game Arena」更新!人狼とポーカーでAIの交渉力とリスク管理を測定
2026/2/2
Browser UseがAIブラウザエージェント用の新ベンチマークを公開
2026/2/1
Claude Codeの性能劣化を毎日監視!Opus 4.5の「劣化」が統計的に判明
2026/1/29