3 min read
[AI 小众新闻]

Unsloth×NVIDIA将LLM训练速度提高25%!Blackwell优化实现高效训练不减精度!


  • Unsloth与NVIDIA的合作开发: 在已经是普通速度的2到5倍的Unsloth基础上,再提升约25%的速度,完全不影响精度...
※この記事はアフィリエイト広告を含みます

Unsloth×NVIDIA将LLM训练速度提高25%!Blackwell优化实现高效训练不减精度!

📰 新闻概述

  • Unsloth与NVIDIA的合作开发: 在已经是普通速度的2-5倍的Unsloth基础上,再提升约25%的速度,完全不影响精度。
  • 自动适配最新硬件: 在NVIDIA Blackwell GPU、配备RTX的笔记本电脑及DGX Spark机器上,新的算法将自动启用。
  • 显著的基准测试结果: 在Qwen3-14B的QLoRA SFT中,前向路径速度提高43.3%,每一步的时间减少14.3%。

💡 重要要点

  • 元数据缓存的优化: 将全层重复的“打包序列边界信息”重构,集成到每个批次只需执行一次,从而大幅降低了GPU与CPU之间的同步开销。
  • 异步梯度检查点: 通过双缓冲技术的异步处理,消除了梯度计算的等待时间,实现了8%的速度提升。
  • MoE路由的优化: 在gpt-oss的训练中,利用argsortbincount提升了MoE(混合专家)的路由速度达15%。

🦈 鲨鱼的视角(策展人的观点)

对每层都严格重构元数据的“隐藏浪费”进行了干预,真是太酷了!在Blackwell GPU的微基准测试中,识别出重构掩码的成本为13.7ms,并通过逻辑方法将其削减“(L-1)次”,这个思路实在令人赞叹。尤其是像Qwen3-0.6B这样层数较多的模型(28层),积累的“细微浪费”被消除,时间缩短了14.8%,这无疑是优化的暴力体现!

🚀 接下来会发生什么?

只需更新Unsloth,全球开发者就能在没有额外成本的情况下将训练时间缩短25%。这将使得2026年的LLM开发周期进一步加速,更大规模的数据集学习及更频繁的微调将变得普遍化!

💬 鲨鱼的看法

NVIDIA的Blackwell性能被Unsloth充分挖掘,真是无可阻挡!学习速度就像鲨鱼游动一样,越快越好!🦈🔥

📚 术语解说

  • 打包(Packed Sequence): 将多个短句子合并为一条长数据,去除多余的空白(填充),提高计算效率的技术。

  • 梯度检查点: 为了减少训练中的内存消耗,暂时丢弃中间数据,必要时重新计算的技术。这次我们将其异步化以提高速度。

  • Blackwell: 截至2026年,成为AI学习标准的NVIDIA超高性能GPU架构。

  • 信息来源: 通过Unsloth和NVIDIA加速LLM训练

【免責事項 / Disclaimer / 免责声明】
JP: 本記事はAIによって構成され、運営者が内容の確認・管理を行っています。情報の正確性は保証せず、外部サイトのコンテンツには一切の責任を負いません。
EN: This article was structured by AI and is verified and managed by the operator. Accuracy is not guaranteed, and we assume no responsibility for external content.
ZH: 本文由AI构建,并由运营者进行内容确认与管理。不保证准确性,也不对外部网站的内容承担任何责任。
🦈