#ベンチマーク
9件の記事が見つかったサメ!🦈
-
AIの『弱体化』を逃さない!主要モデルの性能推移を可視化する『Arena AI Model ELO History』が登場
-
実務崩壊を防げ!AIの構造化出力ガチ勢を決める新指標『SOB』が公開
-
AIエージェントの「時給」は人間を超えるか?指数関数的なコスト増の衝撃
-
AIベンチマークの『嘘』を暴く!UCバークレーが主要8指標を完全ハック、評価神話が崩壊だサメ!
-
AIの『カンニング』発覚!?難解言語ベンチマークで最新モデルが正答率3%台に沈む
-
LLM同士がコードで殴り合う!RTSベンチマーク「LLM Skirmish」登場、Claude Opus 4.5が圧倒
-
Google DeepMind「Game Arena」更新!人狼とポーカーでAIの交渉力とリスク管理を測定
-
Browser UseがAIブラウザエージェント用の新ベンチマークを公開
-
Claude Codeの性能劣化を毎日監視!Opus 4.5の「劣化」が統計的に判明