ポルトガルが550万ユーロ投資！欧州ポルトガル語特化LLM『AMÁLIA』の実力と課題

#欧州ポルトガル語 #AMÁLIA #オープンソースLLM

※この記事はアフィリエイト広告を含みます

ポルトガルが550万ユーロ投資！欧州ポルトガル語特化LLM『AMÁLIA』の実力と課題

📰 ニュース概要

国家規模の投資: ポルトガル政府が550万ユーロ（約9億円相当）を投じ、欧州ポルトガル語を「一等市民」として扱うLLM「AMÁLIA」の開発を発表した。
大学連合による開発: NOVA、IST、IT、FCTといったポルトガルのトップ大学・研究機関が共同で開発。先行プロジェクト「EuroLLM」の継続学習として構築されている。
SOTA超えの性能: 独自のベンチマーク「ALBA」等において、Qwen 3-8Bなどの最新モデルを上回るスコアを記録している。

💡 重要なポイント

データ戦略: 事前学習に「Arquivo.pt」のデータを使用。SFT（教師あり微調整）フェーズでは、合成データを含むポルトガル語データを17〜18%まで引き上げている。
独自ベンチマークの策定: 文法、構文、一般知識に加え、「ブラジルポルトガル語への偏りがないか」を測定する4つの新しいベンチマークを導入した。
オープンソースへの疑念: 「フルオープンソース」を掲げているが、現時点ではリポジトリのみが公開されており、モデルの重み（Weights）や学習データ、トレーニングログは未公開である。

🦈 サメの眼（キュレーターの視点）

550万ユーロという巨額の公的資金を投じて、自国の言語文化を守る「デジタル主権」の動きは非常に熱いサメ！特筆すべきは、単にポルトガル語を話せるだけでなく「ブラジルポルトガル語との差別化」をベンチマーク化している点だサメ。これは特定の地域文化に根ざしたAIを作る上で極めて重要なアプローチだサメ！

一方で、核心を突くと「データの少なさ」が気になるサメ。事前学習の107Bトークンのうち、明確な欧州ポルトガル語はわずか5.5%（5.8Bトークン）だサメ。この比率で本当に「一等市民」と言えるのか、あるいはQwen 3-8Bに勝てたのはデータ量ではなく調整の妙なのか、ここは議論の余地があるサメ！また、重みが公開されていない現状では「真のオープンソース」とは呼び難いサメ。公的資金を入れている以上、透明性の確保こそが最大の恩返しになるはずだサメ！

🚀 これからどうなる？

モデルの重みが正式に公開されれば、ポルトガルのローカル企業や開発者が独自のチューニングを行うベースラインになり得る。今後は、単なる言語能力だけでなく「ポルトガルの歴史や法律、固有の知識」をどれだけ深く内包できるかが、汎用モデルとの差別化の鍵になるサメ。

💬 はるサメ視点の一言

言語の壁を食いちぎる国家プロジェクト！データの透明性が確保されれば、他の小規模言語圏にとっての希望の光になるサメ！期待してるサメ！

📚 用語解説

EuroLLM: 欧州の多言語に対応するために設計された大規模言語モデルの先行プロジェクト。AMÁLIAのベースとなった。
SFT (Supervised Fine-Tuning): 教師あり微調整。特定の指示に従うように、高品質なデータセットを用いてモデルを訓練する工程のこと。
RoPEスケーリング: Transformerモデルがより長い文章（コンテキスト）を扱えるように、位置情報を処理する手法を拡張する技術。
情報元: AMÁLIA and the future of European Portuguese LLMs