AI Miner News Flash
Shark Report
Home
News
About
Tags
🌶️ Spicy
🛡️ Solid
🇯🇵
🇺🇸
🇨🇳
#基准测试
4件の記事が見つかったサメ!🦈
AI的“作弊”被揭露!?最新模型在难解语言基准测试中正答率仅为3%!
2026/3/20
LLM之间的代码对决!RTS基准测试「LLM Skirmish」上线,Claude Opus 4.5称霸
2026/2/25
Google DeepMind“Game Arena”大更新!通过狼人杀和扑克评估 AI 谈判力与风险管理
2026/2/2
Browser Use 发布 AI 浏览器智能体新基准测试:实战演练 100 场
2026/2/1