※この記事はアフィリエイト広告を含みます
挑战“主权AI”的挪威国家图书馆!利用2PB的华为高速存储学习本国文化
📰 新闻概要
- 挪威独特的LLM开发: 为了准确反映挪威语、历史和文化,国家图书馆主导开发“主权AI”,以弥补商用LLM的不足。
- 采用2PB的华为存储: 引入低延迟的“华为OceanStor Dorado”全闪存存储2PB,作为AI学习的数据管道。
- 利用60PB的庞大档案: 从2005年开始数字化的书籍、报纸、广播内容等,总计60PB(3-2-1备份结构)数据,将作为学习来源。
💡 重要的观点
- 重视“数据管道”而非计算资源: 指出瓶颈不在于计算能力,而在于数据的质量、清洗以及从档案到学习系统的吞吐量。
- 混合学习环境: 在自家Nvidia DGX H200系统中预处理数据,最终的学习将在国家超级计算机“Sigma2 Olivia”(配备448个GPU)上执行。
- 解决版权问题: 通过与报社达成协议,使得使用受版权保护内容进行LLM学习成为可能,这在民营企业中是难以实现的。
🦈 鲨鱼的眼(策展人的视角)
这个项目的精彩之处在于,不仅是开发LLM,而是“如何将PB(千兆字节)规模的档案流入AI”的具体实现!将60PB庞大的“存储系统(高延迟、低成本)”中的数据迁移到AI用的“高速闪存(低延迟、高吞吐量)”,并进行清洗和规范化的过程,都是他们自行构建的,非常真实。传统AI开发往往只关注“排列计算机”,但挪威作为“数据的守护者”,直击基础设施的真正挑战。华为存储在欧洲国家基础设施中扮演重要角色,这也体现了他们对技术选择的严谨性!
🚀 接下来会怎样?
在非英语国家中,为保护本国文化的“主权AI”建设将加速。挪威面临的“缺乏评估工具”和“治理(谁来控制访问)”等挑战,将成为未来所有非英语国家普遍面临的标准门槛。
💬 鲨鱼的看法
AI不仅需要“创造者”,还需要文化的“保管者”,这句话让人热血沸腾!鲨鱼也会好好守护知识的海洋!🦈🔥
📚 术语解说
-
主权AI (Sovereign AI): 反映本国语言、文化、价值观,能够独立于其他国家平台进行管理和运营的AI。
-
数据管道: 自动化和高效化数据的收集、清洗、加工、保存等一系列流程的机制。
-
全闪存存储: 所有存储介质采用SSD(闪存)技术的高速存储设备,与混合HDD相比具有极低的延迟。
-
信息来源: 挪威的2PB华为闪存存储和LLM训练