3 min read
[AI 小众新闻]

将Gemini 3.1蒸馏到2600万参数!超轻量工具执行AI「Needle」横空出世


  • 将Gemini 3.1蒸馏到2600万参数: 实现惊人小型化的基于「简单注意力网络 (SAN)」的模型「Needle」正式发布。...
※この記事はアフィリエイト広告を含みます

将Gemini 3.1蒸馏到2600万参数!超轻量工具执行AI「Needle」横空出世

📰 新闻概述

  • 将Gemini 3.1蒸馏到2600万参数: 实现惊人小型化的基于「简单注意力网络 (SAN)」的模型「Needle」正式发布。
  • 压倒性的处理速度: 在Cactus平台上运行,推理速度达到解码1200 toks/sec,预填充6000 toks/sec,数据令人震惊。
  • 本地微调功能: 提供Web UI「needle playground」,使得在Mac或PC上轻松学习特定工具调用数据成为可能。

💡 重要点

  • 特定任务的高优势: 在单次函数调用性能方面,超越FunctionGemma-270m、Qwen-0.6B和Granite-350m等大型模型。
  • 彻底高效的架构: 去除FFN(前馈神经网络),采用ZCRMSNorm和GQA+RoPE。通过共享嵌入等设计,极大降低资源消耗。
  • 支持下一代边缘设备: 预计不仅在智能手机上,还将在手表和智能眼镜等极小设备上作为「个人AI」的基础使用。

🦈 鲨鱼的视角(策展人的观点)

以26M的极小体积重现Gemini 3.1的智能(工具执行),真是颠覆性的技术创新鲨鱼! 这个「Needle」的厉害之处,不仅仅是轻量化,更在于在Cactus上达到秒填充6000个token的超快速度。通过去掉FFN的「简单注意力网络」实现,完美解决了现有小型模型的「重量」与「精度之间的权衡」问题。 而且,连Mac的微调环境都已经准备好了,简直是神助攻!用户终于可以在边缘设备上培养出「专属AI助手」的时代来临了鲨鱼!

🚀 未来发展

像「Needle」这样的特化极小模型将被搭载在智能眼镜等可穿戴设备上,实现零延迟的家电控制和信息获取,AI将从「云端」完全迁移到「指尖和眼前」,这个趋势将加速推进鲨鱼。

💬 鲨鱼视角的一句评论

大型模型强势的时代已经结束鲨鱼!接下来是「小巧而高效」的鲨鱼时代!🦈🔥

📚 术语解析

  • 蒸馏(Distillation): 将大型高性能模型(教师模型)的知识继承给更小的模型(学生模型)的技术,在保持精度的同时实现轻量化。

  • 工具调用(Tool Calling): AI调用外部函数或API,执行天气预报获取、计算、设备操作等具体动作的功能。

  • 预填充(Prefill): AI一次性读取输入文本,为生成初始响应做准备的阶段。速度越快,响应开始的等待时间越短。

  • 信息来源: Needle: We Distilled Gemini Tool Calling into a 26M Model

🦈 はるサメ厳選!イチオシAI関連
【免責事項 / Disclaimer / 免责声明】
JP: 本記事はAIによって構成され、運営者が内容の確認・管理を行っています。情報の正確性は保証せず、外部サイトのコンテンツには一切の責任を負いません。
EN: This article was structured by AI and is verified and managed by the operator. Accuracy is not guaranteed, and we assume no responsibility for external content.
ZH: 本文由AI构建,并由运营者进行内容确认与管理。不保证准确性,也不对外部网站的内容承担任何责任。
🦈