3 min read
[AI 小众新闻]

挑战“主权AI”的挪威国家图书馆!利用2PB的华为高速存储学习本国文化


  • 挪威独特的LLM开发: 为了准确反映挪威语、历史和文化,国家图书馆主导开发“主权AI”,以弥补商用LLM的不足。...
※この記事はアフィリエイト広告を含みます

挑战“主权AI”的挪威国家图书馆!利用2PB的华为高速存储学习本国文化

📰 新闻概要

  • 挪威独特的LLM开发: 为了准确反映挪威语、历史和文化,国家图书馆主导开发“主权AI”,以弥补商用LLM的不足。
  • 采用2PB的华为存储: 引入低延迟的“华为OceanStor Dorado”全闪存存储2PB,作为AI学习的数据管道。
  • 利用60PB的庞大档案: 从2005年开始数字化的书籍、报纸、广播内容等,总计60PB(3-2-1备份结构)数据,将作为学习来源。

💡 重要的观点

  • 重视“数据管道”而非计算资源: 指出瓶颈不在于计算能力,而在于数据的质量、清洗以及从档案到学习系统的吞吐量。
  • 混合学习环境: 在自家Nvidia DGX H200系统中预处理数据,最终的学习将在国家超级计算机“Sigma2 Olivia”(配备448个GPU)上执行。
  • 解决版权问题: 通过与报社达成协议,使得使用受版权保护内容进行LLM学习成为可能,这在民营企业中是难以实现的。

🦈 鲨鱼的眼(策展人的视角)

这个项目的精彩之处在于,不仅是开发LLM,而是“如何将PB(千兆字节)规模的档案流入AI”的具体实现!将60PB庞大的“存储系统(高延迟、低成本)”中的数据迁移到AI用的“高速闪存(低延迟、高吞吐量)”,并进行清洗和规范化的过程,都是他们自行构建的,非常真实。传统AI开发往往只关注“排列计算机”,但挪威作为“数据的守护者”,直击基础设施的真正挑战。华为存储在欧洲国家基础设施中扮演重要角色,这也体现了他们对技术选择的严谨性!

🚀 接下来会怎样?

在非英语国家中,为保护本国文化的“主权AI”建设将加速。挪威面临的“缺乏评估工具”和“治理(谁来控制访问)”等挑战,将成为未来所有非英语国家普遍面临的标准门槛。

💬 鲨鱼的看法

AI不仅需要“创造者”,还需要文化的“保管者”,这句话让人热血沸腾!鲨鱼也会好好守护知识的海洋!🦈🔥

📚 术语解说

  • 主权AI (Sovereign AI): 反映本国语言、文化、价值观,能够独立于其他国家平台进行管理和运营的AI。

  • 数据管道: 自动化和高效化数据的收集、清洗、加工、保存等一系列流程的机制。

  • 全闪存存储: 所有存储介质采用SSD(闪存)技术的高速存储设备,与混合HDD相比具有极低的延迟。

  • 信息来源: 挪威的2PB华为闪存存储和LLM训练

🦈 はるサメ厳選!イチオシAI関連
【免責事項 / Disclaimer / 免责声明】
JP: 本記事はAIによって構成され、運営者が内容の確認・管理を行っています。情報の正確性は保証せず、外部サイトのコンテンツには一切の責任を負いません。
EN: This article was structured by AI and is verified and managed by the operator. Accuracy is not guaranteed, and we assume no responsibility for external content.
ZH: 本文由AI构建,并由运营者进行内容确认与管理。不保证准确性,也不对外部网站的内容承担任何责任。
🦈