Allen AI の EMO：エキスパートの12.5%だけで性能維持できる MoE 事前学習手法

記事のサマリー（TL;DR）

Allen AI が EMO を公開。1B アクティブ・14B 総パラメータ（128エキスパート中8つをアクティブ化）で1兆トークン学習済み
全エキスパートの12.5%（16個）のみ使用時でも性能低下は約3%。標準 MoE はランダム水準近くまで劣化
ドキュメント単位で共有エキスパートプールを強制し、意味的ドメイン（医療・政治・映画など）に対応したモジュールが自然発生

国内 LLM 運用・推論コスト最適化を検討する事業者への示唆

EMO の最大の実用的な意義は、推論時のメモリ予算をタスクに合わせて柔軟に削減できる点です。フロンティアモデルが常時トリリオン規模のパラメータを必要とする一方、コード生成・数学推論・医療ドメインなど特定用途に絞ればエキスパートの12.5〜25%で同等精度を達成できます。GPU メモリが限られるオンプレミス環境や、推論コストを厳しく管理したい SaaS プロダクトでは、このメモリ─精度のパレート改善は直接コスト削減につながります。また、タスク固有のエキスパートサブセット選定に必要なデータは「少数ショットの1サンプル」で十分とされており、ファインチューニングなしの軽量アダプテーションが現実的です。日本語対応モデルへの応用やドメイン特化型ファインチューニングを検討する場合、EMO の学習コードとベースラインモデルはオープンリリースされているため、研究・検証のベースとして利用できます。

詳細

モジュール性はどのように生まれるか

大規模言語モデルは通常、単一のモノリシックなシステムとして学習・サービスされます。しかし、実際のアプリケーションが必要とするのはコード生成・数学的推論・ドメイン固有知識といった特定能力のサブセットに過ぎません。フロンティアモデルがトリリオン規模のパラメータに達する中、フルモデルを使い続けることは大多数のユーザーにとって非現実的であり、不要なパラメータのホスティングに伴う計算・メモリコストが無駄になります。

Mixture-of-Experts（MoE）モデルは本来この制約を緩和する手法です。各レイヤーに単一の大きなフィードフォワードネットワークを置く代わりに、多数の小さなネットワーク（エキスパート）を持ち、入力トークンごとにそのサブセットのみをアクティブ化します。しかし既存の MoE はフルモデルなしでは性能が出ないという課題がありました。単一の入力でもトークンごとに異なるエキスパートが活性化するため、生成全体で全エキスパートが使われてしまいます。その根本原因は、標準 MoE のエキスパートが「前置詞」「句読点」といった低水準の語彙パターンに特化しがちで、高水準のドメインや能力に対応していないからです。

EMO のアプローチはドキュメント境界を弱い教師信号として使うことです。同じドキュメント内のトークンは通常同じドメインから来るという観察に基づき、学習中にドキュメント内の全トークンを共有エキスパートプールからのみルーティングするよう制約を課します。

例えば10エキスパート・トークンあたり2エキスパートをアクティブ化する MoE の場合、あるドキュメント内の全トークンは同じ4エキスパートのプールから選ぶよう制限されます。このプールはルーター自体が選択します：ドキュメント内の全トークンにわたるルーターのエキスパート選好を平均し、最も使用頻度の高いエキスパートをドキュメントの共有プールとして選びます。異なるドキュメントは異なるプールを使用でき、反復的なエキスパートグループが学習データから自然発生します。

実装上の技術的考慮点

ロードバランシング

標準 MoE 学習ではロードバランシングが少数のエキスパートへの過集中を防ぎますが、EMO の制約と一見矛盾します。多くの MoE 実装ではロードバランシングをマイクロバッチ（少数ドキュメント）のローカルスコープで計算しており、これが同一ドキュメント内のトークンを多数のエキスパートに分散させる方向に働き、EMO の目標と相反します。

EMO ではこれを解決するため、多数のドキュメントにまたがるグローバルなロードバランシングを適用します。このスケールでは両者の目標は補完的になります。EMO がドキュメント内の一貫したエキスパートプールを促す一方、グローバルなロードバランシングは異なるドキュメントが全エキスパートをカバーするよう促します。実践上、グローバルなロードバランシングは安定した学習に不可欠でした。

ドキュメントプールサイズ

プールサイズはモジュール性制約の強さを制御します。小さいプールは強いモジュール性を促しますが、大きいプールは柔軟性を高める代わりに制約を弱めます。EMO では学習中にプールサイズをランダムサンプリングし、単一のサブセットサイズへの過適合を防ぎつつ、推論時に異なるエキスパートサブセットサイズをサポートします。

ベンチマーク結果

汎用ベンチマークでは、EMO は標準 MoE モデルと同等の性能を発揮しており、モジュール性目標がフルモデル性能を犠牲にしないことが示されています。

より重要な検証は、エキスパートサブセットのみ使用した場合の性能です。タスク固有のエキスパートサブセットは、少量のタスク検証データにおけるルーティング使用率でエキスパートをランキングし、最も使用頻度の高いものを保持することで構築します。

エキスパート25%（32個）保持：全ベンチマーク平均で絶対性能低下は約1%
エキスパート12.5%（16個）保持：全ベンチマーク平均で絶対性能低下は約3%
ファインチューニング前後いずれにおいても同様の結果

一方、同アーキテクチャの標準 MoE はエキスパートサブセットが小さくなるほど急激に性能が低下し、最小サブセット設定ではランダム水準近くまで落ち込みます。

さらに、適切なエキスパートの選択コストは驚くほど安価です。少数ショットのデモ付き1サンプルだけで、フル検証セットを使って選んだモジュールと同等のモジュールを特定できます。また EMO は特定の選択手法に依存しておらず、Easy-EP などの既存のエキスパートプルーニング手法とも相性が良く、両者は補完的に機能します。

130B トークンの小規模設定での比較実験でも、EMO のエキスパートサブセットはメモリ─精度のトレードオフでパレートフロンティアを更新し、標準 MoE とゼロから学習した固定予算モデルの両方を上回りました。

エキスパートサブセットは何に特化しているか

EMO が学習後に何を獲得したかを確認するため、1万2000件の事前学習ドキュメントの最初の100トークンに対するルーター活性化をクラスタリングしました。

EMO のクラスタ：「Health, Medical & Wellness（健康・医療・ウェルネス）」「News Reporting（ニュース報道）」「US Politics & Elections（米国政治・選挙）」「Film & Music（映画・音楽）」など、意味的に意味のあるドメインに対応

標準 MoE のクラスタ：「Prepositions（前置詞）」「Proper Names（固有名詞）」「Copula Verbs（繋辞動詞）」「Definite Articles（定冠詞）」といった表層的・構文的特徴

EMO では、あるドキュメントのトークンのほぼ全てが同じクラスタに落ちます。健康に関する記事を例にとると、EMO ではほぼ全トークンが「Health, Medical & Wellness」クラスタにルーティングされます。標準 MoE では上位クラスタが「Possessives & Definite Articles（所有格・定冠詞）」となり、内容に関わらず「the」や「your」を使う全テキストとひとまとめにされます。

EMO が表層的特徴ではなく意味的ドメインに対応するモジュールを形成するからこそ、小さなエキスパートサブセットを選んでも機能するモデルとして成立します。クラスタリング結果はインタラクティブな可視化ツール（https://emovisualization.netlify.app/）で体験できます。

公開内容

今回の公開物は以下の通りです。

🧠 モデル：https://huggingface.co/collections/allenai/emo
📄 技術レポート：https://allenai.org/papers/emo
💻 コード：https://github.com/allenai/EMO
📊 可視化ツール：https://emovisualization.netlify.app/

EMO 学習済みフルモデル、同データで学習した標準 MoE ベースライン、学習コードをすべてオープンリリースしています。

EMO は大規模スパースモデルのモジュール化に向けた初期ステップです。今後の課題としては、エキスパートサブセットのより良い選択・合成方法、フルモデルを損なわないモジュール更新、そしてモジュール構造を解釈可能性と制御に活かす方法が残されています。これらのモデルの公開により、研究コミュニティが展開・適応・検査・合成がしやすいモジュラー言語モデルの構築に向けた研究を進めることが期待されます。