※この記事はアフィリエイト広告を含みます
1200万Token的怪物!下一代架构LLM『SubQ』突破推理极限了鲨鱼!
📰 新闻概要
- 12M Token的超广阔上下文: 可以在不降低质量的情况下,一次性处理完整的代码库、数个月的PR历史和持久性代理状态。
- 卓越的性价比和速度: 成本仅为现有主要LLM的五分之一,推理速度高达每秒150个Token,令人惊叹。
- 创新的“次二次”架构: 采用完全次二次稀疏注意力架构,解决了Transformer模型所面临的计算复杂性问题。
💡 重要的要点
- 注意力计算减少1000倍: 传统LLM处理单词之间的所有关系,浪费了计算资源,而SubQ则专注于重要关系,大幅提高了在12M Token时的计算效率。
- 基准测试中的优势: 在SWE-Bench Verified中记录了81.8%,性能可与Gemini 3.1 Pro和GPT-5.5(内部评估)相媲美,甚至超越。
- 轻松集成到现有工具中: API兼容OpenAI,可以一行代码轻松安装到Cursor和Claude Code等编码代理中。
🦈 鲨鱼的眼(策展者视角)
这简直是鲨鱼级的捕食者,彻底颠覆了Transformer的限制!以前的LLM在上下文变长时,计算量呈二次增长,导致运行缓慢或大量占用内存。但SubQ通过“次二次架构”,将注意力计算减少了1000倍,这真是令人毛骨悚然的突破!
尤其是“可以一次性处理完整的代码库”对开发者来说简直是梦想成真。有了每秒150个Token的速度,AI代理可以在庞大的代码库中自由游走,思维不再受限。感受到与GPT-5系列这样的大型模型正面交锋的新时代的来临,这真是太令人振奋了!
🚀 接下来会发生什么?
- “上下文节省”将成为过去: 有了1200万Token,省去削减提示的麻烦,与AI的“长期记忆”对话将成为常态。
- 自主型代理的爆炸性进化: 具备对整个代码库的全面理解进行高级重构的能力,能够理解数月项目的全部历史并做出决策。
💬 春鲨视角的一句话
有了12M Token的胃口,任何庞大数据都能轻松吞下!毫无疑问将成为开发者最强大的伙伴!🦈🔥
📚 术语解释
-
次二次架构 (Sub-quadratic architecture): 一种将计算量的增加控制在“小于二次函数(n的平方)”的技术,能显著减少长文本处理时的计算负担。
-
12M Token上下文: 一次性处理约1200万字相当的信息,有能力相当于数百本书或整个大型软件的源代码。
-
SWE-Bench Verified: 一项测量AI解决实际软件工程问题能力的可靠基准测试。