事業紹介 事業紹介トップ 経営データ分析基盤 Claude / MCP 導入 複雑な SaaS を専用 UI に Shopify Plus 移行・拡張 生成AI 活用(Multi AI) SEO / AIO / 広告運用 顧問・アドバイザリ インフラ構築 自社メディア投資・開発
Claude Claude / MCP 総合 Claude Cowork Claude Code Claude Design MCP サーバー実装
Shopify Plus Shopify Plus トップ EC-CUBE からの移行 大手カートからの移行 Shopify 通常プラン
実績
業界ニュース 業界ニュース トップ AI ニュース Shopify ニュース SaaS ニュース お知らせ(自社発信)
会社情報 お問い合わせ
2026.05.13

Allen AI の EMO:エキスパートの12.5%だけで性能維持できる MoE 事前学習手法

記事のサマリー(TL;DR)

  • Allen AI が EMO を公開。1B アクティブ・14B 総パラメータ(128エキスパート中8つをアクティブ化)で1兆トークン学習済み
  • 全エキスパートの12.5%(16個)のみ使用時でも性能低下は約3%。標準 MoE はランダム水準近くまで劣化
  • ドキュメント単位で共有エキスパートプールを強制し、意味的ドメイン(医療・政治・映画など)に対応したモジュールが自然発生

国内 LLM 運用・推論コスト最適化を検討する事業者への示唆

EMO の最大の実用的な意義は、推論時のメモリ予算をタスクに合わせて柔軟に削減できる点です。フロンティアモデルが常時トリリオン規模のパラメータを必要とする一方、コード生成・数学推論・医療ドメインなど特定用途に絞ればエキスパートの12.5〜25%で同等精度を達成できます。GPU メモリが限られるオンプレミス環境や、推論コストを厳しく管理したい SaaS プロダクトでは、このメモリ─精度のパレート改善は直接コスト削減につながります。また、タスク固有のエキスパートサブセット選定に必要なデータは「少数ショットの1サンプル」で十分とされており、ファインチューニングなしの軽量アダプテーションが現実的です。日本語対応モデルへの応用やドメイン特化型ファインチューニングを検討する場合、EMO の学習コードとベースラインモデルはオープンリリースされているため、研究・検証のベースとして利用できます。

詳細

モジュール性はどのように生まれるか

大規模言語モデルは通常、単一のモノリシックなシステムとして学習・サービスされます。しかし、実際のアプリケーションが必要とするのはコード生成・数学的推論・ドメイン固有知識といった特定能力のサブセットに過ぎません。フロンティアモデルがトリリオン規模のパラメータに達する中、フルモデルを使い続けることは大多数のユーザーにとって非現実的であり、不要なパラメータのホスティングに伴う計算・メモリコストが無駄になります。

Mixture-of-Experts(MoE)モデルは本来この制約を緩和する手法です。各レイヤーに単一の大きなフィードフォワードネットワークを置く代わりに、多数の小さなネットワーク(エキスパート)を持ち、入力トークンごとにそのサブセットのみをアクティブ化します。しかし既存の MoE はフルモデルなしでは性能が出ないという課題がありました。単一の入力でもトークンごとに異なるエキスパートが活性化するため、生成全体で全エキスパートが使われてしまいます。その根本原因は、標準 MoE のエキスパートが「前置詞」「句読点」といった低水準の語彙パターンに特化しがちで、高水準のドメインや能力に対応していないからです。

EMO のアプローチはドキュメント境界を弱い教師信号として使うことです。同じドキュメント内のトークンは通常同じドメインから来るという観察に基づき、学習中にドキュメント内の全トークンを共有エキスパートプールからのみルーティングするよう制約を課します。

例えば10エキスパート・トークンあたり2エキスパートをアクティブ化する MoE の場合、あるドキュメント内の全トークンは同じ4エキスパートのプールから選ぶよう制限されます。このプールはルーター自体が選択します:ドキュメント内の全トークンにわたるルーターのエキスパート選好を平均し、最も使用頻度の高いエキスパートをドキュメントの共有プールとして選びます。異なるドキュメントは異なるプールを使用でき、反復的なエキスパートグループが学習データから自然発生します。

実装上の技術的考慮点

ロードバランシング

標準 MoE 学習ではロードバランシングが少数のエキスパートへの過集中を防ぎますが、EMO の制約と一見矛盾します。多くの MoE 実装ではロードバランシングをマイクロバッチ(少数ドキュメント)のローカルスコープで計算しており、これが同一ドキュメント内のトークンを多数のエキスパートに分散させる方向に働き、EMO の目標と相反します。

EMO ではこれを解決するため、多数のドキュメントにまたがるグローバルなロードバランシングを適用します。このスケールでは両者の目標は補完的になります。EMO がドキュメント内の一貫したエキスパートプールを促す一方、グローバルなロードバランシングは異なるドキュメントが全エキスパートをカバーするよう促します。実践上、グローバルなロードバランシングは安定した学習に不可欠でした。

ドキュメントプールサイズ

プールサイズはモジュール性制約の強さを制御します。小さいプールは強いモジュール性を促しますが、大きいプールは柔軟性を高める代わりに制約を弱めます。EMO では学習中にプールサイズをランダムサンプリングし、単一のサブセットサイズへの過適合を防ぎつつ、推論時に異なるエキスパートサブセットサイズをサポートします。

ベンチマーク結果

汎用ベンチマークでは、EMO は標準 MoE モデルと同等の性能を発揮しており、モジュール性目標がフルモデル性能を犠牲にしないことが示されています。

より重要な検証は、エキスパートサブセットのみ使用した場合の性能です。タスク固有のエキスパートサブセットは、少量のタスク検証データにおけるルーティング使用率でエキスパートをランキングし、最も使用頻度の高いものを保持することで構築します。

  • エキスパート25%(32個)保持:全ベンチマーク平均で絶対性能低下は約1%
  • エキスパート12.5%(16個)保持:全ベンチマーク平均で絶対性能低下は約3%
  • ファインチューニング前後いずれにおいても同様の結果

一方、同アーキテクチャの標準 MoE はエキスパートサブセットが小さくなるほど急激に性能が低下し、最小サブセット設定ではランダム水準近くまで落ち込みます。

さらに、適切なエキスパートの選択コストは驚くほど安価です。少数ショットのデモ付き1サンプルだけで、フル検証セットを使って選んだモジュールと同等のモジュールを特定できます。また EMO は特定の選択手法に依存しておらず、Easy-EP などの既存のエキスパートプルーニング手法とも相性が良く、両者は補完的に機能します。

130B トークンの小規模設定での比較実験でも、EMO のエキスパートサブセットはメモリ─精度のトレードオフでパレートフロンティアを更新し、標準 MoE とゼロから学習した固定予算モデルの両方を上回りました。

エキスパートサブセットは何に特化しているか

EMO が学習後に何を獲得したかを確認するため、1万2000件の事前学習ドキュメントの最初の100トークンに対するルーター活性化をクラスタリングしました。

EMO のクラスタ:「Health, Medical & Wellness(健康・医療・ウェルネス)」「News Reporting(ニュース報道)」「US Politics & Elections(米国政治・選挙)」「Film & Music(映画・音楽)」など、意味的に意味のあるドメインに対応

標準 MoE のクラスタ:「Prepositions(前置詞)」「Proper Names(固有名詞)」「Copula Verbs(繋辞動詞)」「Definite Articles(定冠詞)」といった表層的・構文的特徴

EMO では、あるドキュメントのトークンのほぼ全てが同じクラスタに落ちます。健康に関する記事を例にとると、EMO ではほぼ全トークンが「Health, Medical & Wellness」クラスタにルーティングされます。標準 MoE では上位クラスタが「Possessives & Definite Articles(所有格・定冠詞)」となり、内容に関わらず「the」や「your」を使う全テキストとひとまとめにされます。

EMO が表層的特徴ではなく意味的ドメインに対応するモジュールを形成するからこそ、小さなエキスパートサブセットを選んでも機能するモデルとして成立します。クラスタリング結果はインタラクティブな可視化ツール(https://emovisualization.netlify.app/)で体験できます。

公開内容

今回の公開物は以下の通りです。

EMO 学習済みフルモデル、同データで学習した標準 MoE ベースライン、学習コードをすべてオープンリリースしています。

EMO は大規模スパースモデルのモジュール化に向けた初期ステップです。今後の課題としては、エキスパートサブセットのより良い選択・合成方法、フルモデルを損なわないモジュール更新、そしてモジュール構造を解釈可能性と制御に活かす方法が残されています。これらのモデルの公開により、研究コミュニティが展開・適応・検査・合成がしやすいモジュラー言語モデルの構築に向けた研究を進めることが期待されます。