※この記事はアフィリエイト広告を含みます
Unsloth×NVIDIA将LLM训练速度提高25%!Blackwell优化实现高效训练不减精度!
📰 新闻概述
- Unsloth与NVIDIA的合作开发: 在已经是普通速度的2-5倍的Unsloth基础上,再提升约25%的速度,完全不影响精度。
- 自动适配最新硬件: 在NVIDIA Blackwell GPU、配备RTX的笔记本电脑及DGX Spark机器上,新的算法将自动启用。
- 显著的基准测试结果: 在Qwen3-14B的QLoRA SFT中,前向路径速度提高43.3%,每一步的时间减少14.3%。
💡 重要要点
- 元数据缓存的优化: 将全层重复的“打包序列边界信息”重构,集成到每个批次只需执行一次,从而大幅降低了GPU与CPU之间的同步开销。
- 异步梯度检查点: 通过双缓冲技术的异步处理,消除了梯度计算的等待时间,实现了8%的速度提升。
- MoE路由的优化: 在
gpt-oss的训练中,利用argsort和bincount提升了MoE(混合专家)的路由速度达15%。
🦈 鲨鱼的视角(策展人的观点)
对每层都严格重构元数据的“隐藏浪费”进行了干预,真是太酷了!在Blackwell GPU的微基准测试中,识别出重构掩码的成本为13.7ms,并通过逻辑方法将其削减“(L-1)次”,这个思路实在令人赞叹。尤其是像Qwen3-0.6B这样层数较多的模型(28层),积累的“细微浪费”被消除,时间缩短了14.8%,这无疑是优化的暴力体现!
🚀 接下来会发生什么?
只需更新Unsloth,全球开发者就能在没有额外成本的情况下将训练时间缩短25%。这将使得2026年的LLM开发周期进一步加速,更大规模的数据集学习及更频繁的微调将变得普遍化!
💬 鲨鱼的看法
NVIDIA的Blackwell性能被Unsloth充分挖掘,真是无可阻挡!学习速度就像鲨鱼游动一样,越快越好!🦈🔥
📚 术语解说
-
打包(Packed Sequence): 将多个短句子合并为一条长数据,去除多余的空白(填充),提高计算效率的技术。
-
梯度检查点: 为了减少训练中的内存消耗,暂时丢弃中间数据,必要时重新计算的技术。这次我们将其异步化以提高速度。
-
Blackwell: 截至2026年,成为AI学习标准的NVIDIA超高性能GPU架构。
-
信息来源: 通过Unsloth和NVIDIA加速LLM训练