3 min read
[AI 小众新闻]

葡萄牙投资550万欧元!专注于欧洲葡萄牙语的LLM『AMÁLIA』的实力与挑战


  • 国家级投资: 葡萄牙政府宣布投资550万欧元(约合9亿日元),开发将欧洲葡萄牙语视为“第一公民”的LLM“AMÁLIA”。...
※この記事はアフィリエイト広告を含みます

葡萄牙投资550万欧元!专注于欧洲葡萄牙语的LLM『AMÁLIA』的实力与挑战

📰 新闻概要

  • 国家级投资: 葡萄牙政府宣布投资550万欧元(约合9亿日元),开发将欧洲葡萄牙语视为“第一公民”的LLM“AMÁLIA”。
  • 大学联盟开发: 包括NOVA、IST、IT、FCT等葡萄牙顶尖大学和研究机构共同开发。该项目是在前期项目“EuroLLM”的基础上进行的持续学习。
  • 超越SOTA的性能: 在自主基准“ALBA”等测试中,AMÁLIA的分数超越了最新的Qwen 3-8B等模型。

💡 重要点

  • 数据策略: 在预训练阶段使用“Arquivo.pt”的数据。在SFT(监督微调)阶段,将合成数据所占比例提升至17%-18%。
  • 独特基准的制定: 除了语法、句法和一般知识外,新增了四个基准来测量是否存在“对巴西葡萄牙语的偏见”。
  • 对开源的质疑: 虽然声称是“完全开源”,但目前仅公开了代码库,模型权重和训练数据、日志尚未发布。

🦈 鲨鱼之眼(策展人视角)

550万欧元的巨额公共资金投入,旨在保护本国语言文化的“数字主权”行动非常激动人心!值得一提的是,不仅仅是会说葡萄牙语,还将“与巴西葡萄牙语的差异化”作为基准化,这是打造根植于特定地区文化的AI的极为重要的方式!

另一方面,核心问题在于“数据量的不足”。在107B个预训练的tokens中,明确的欧洲葡萄牙语仅占5.5%(5.8B tokens)。这样的比例真的能被称为“第一公民”吗?或者说,AMÁLIA能超越Qwen 3-8B,是因为数据量的优势,还是调优的巧妙?这一点仍有争议!此外,在权重尚未公开的情况下,称其为“真正的开源”还有待商榷。既然投入了公共资金,确保透明性才能是回馈社会的最佳途径!

🚀 未来展望

一旦模型权重正式公开,葡萄牙本土企业和开发者将能够进行独特的调优,成为一个基准。未来不仅是语言能力的比拼,还要看“能多深地包罗葡萄牙的历史、法律和独特知识”,这将是与通用模型区分的关键。

💬 鲨鱼的简评

打破语言壁垒的国家项目!如果数据透明性得以保障,将成为其他小语言区的希望之光!我很期待!

📚 术语解释

  • EuroLLM: 为了支持欧洲多语言而设计的大规模语言模型先行项目,AMÁLIA正是其基础。

  • SFT (监督微调): 通过高质量数据集训练模型,以遵循特定指令的过程。

  • RoPE缩放: 一种扩展Transformer模型处理更长文本(上下文)的方法,增强位置信息处理技术。

  • 信息来源: AMÁLIA and the future of European Portuguese LLMs

【免責事項 / Disclaimer / 免责声明】
JP: 本記事はAIによって構成され、運営者が内容の確認・管理を行っています。情報の正確性は保証せず、外部サイトのコンテンツには一切の責任を負いません。
EN: This article was structured by AI and is verified and managed by the operator. Accuracy is not guaranteed, and we assume no responsibility for external content.
ZH: 本文由AI构建,并由运营者进行内容确认与管理。不保证准确性,也不对外部网站的内容承担任何责任。
🦈