JetBrains が Mellum2 を公開：12B MoE モデルで同規模比2倍超の推論速度を実現

記事のサマリー（TL;DR）

JetBrains が 12B MoE モデル「Mellum2」を Apache 2.0 で公開。トークンあたりアクティブパラメータは 2.5B
コード生成・推論・数学など複数ベンチマークで同規模オープンモデルと同等性能を保ちつつ、推論速度は2倍以上
RAG パイプライン・ルーティング・サブエージェント・プライベートデプロイを主要用途として設計

国内の生成 AI システム開発・プライベートデプロイへの影響

Mellum2 は Apache 2.0 ライセンスで完全オープンソースのため、社内コードや顧客データを外部 API に送れない日本企業のプライベートデプロイ要件とかみ合います。特に、金融・医療・製造などコンプライアンス制約が厳しいセクターで、コード補完・社内 RAG・オーケストレーション層を自社インフラ上で完結させる構成に実用的な選択肢が加わります。

また、マルチモデル構成の普及に伴い「大型モデルへのアクセスをどこで絞るか」が設計上の問題になっています。kintone・Salesforce・freee などの業務 SaaS に AI 機能を組み込む際、ルーティングや文脈圧縮のような高頻度・低コスト処理を Mellum2 のような特化モデルに担わせ、複雑な推論だけ GPT-4o や Claude 3.7 Sonnet に委ねるという分離が、コスト管理とレイテンシ改善の両面で現実的な設計パターンです。

詳細

Mellum2 とは

Mellum2 は JetBrains が自然言語とコードを対象としてゼロから学習させた Mixture-of-Experts（MoE）モデルです。総パラメータ数は 12B ですが、各トークンの推論時にアクティブになるのは 2.5B のみで、高スループット・低レイテンシの推論を実現しています。ライセンスは Apache 2.0 で、Hugging Face 上のコレクション（JetBrains/mellum-2）からダウンロード可能です。技術詳細はアーカイブ（arxiv.org/pdf/2605.31268）で公開されています。

Mellum の初代モデルはコード補完専用モデルとして出発しました。Mellum2 ではその基盤を拡張し、より幅広い自然言語処理とソフトウェアエンジニアリングタスクに対応しつつ、効率的な推論とデプロイのしやすさを維持しています。

ベンチマークのポイント

公式技術レポートでは、コード生成・推論・科学・数学の各ベンチマークで評価を実施。同規模のオープンモデルと同等の性能を示しつつ、推論速度は2倍以上を達成しており、本番環境での高スループット運用に適しています。

モデルアーキテクチャ

モデル	総パラメータ	トークンあたりアクティブパラメータ	モダリティ	ライセンス
Mellum2	12B	2.5B	テキスト・コード	Apache 2.0

MoE アーキテクチャは、モデル全体のキャパシティを高く保ちながら各トークンに対して一部のパラメータだけを活性化する仕組みです。これにより推論効率が向上し、リアルタイム処理のサービングコストを抑えられます。Mellum2 はマルチモーダルではなく、テキストとコードに特化しています。この絞り込みがモデルをコンパクトに保ち、ソフトウェアエンジニアリング用途での効率につながっています。

主要ユースケース

ルーティング・オーケストレーション

マルチモデルシステムにおける軽量なルーティング・オーケストレーションモデルとして機能します。プロンプト分類、ツール選択、中間的な制御フローステップなどが対象です。

RAG パイプライン

レイテンシ重視の検索パイプラインに適しており、コンテキスト圧縮・要約・検索後処理などを担います。

サブエージェント

計画・検証・変換・コンテキスト準備といったエージェントのサブタスクに利用でき、中間処理での大型モデル呼び出しを削減します。

プライベートデプロイ

オープンかつサービング効率が高いため、独自コードや社内データを扱う自己ホスト環境へのデプロイに適しています。

「スコープを絞ったモデル」が重要な理由

AI システムが成熟するにつれ、最も効果的なアーキテクチャはモノリシックではなくなっています。単一のフロンティアモデルは強力ですが、本番システムでは複数の専門コンポーネント——レトリーバー、ルーター、コード対応モデル、バリデーター、ツール呼び出し、大型推論モデル——が連携する構成が求められます。

JetBrains は Mellum2 を「フォーカルモデル（focal model）」と位置づけています。大規模 AI システム内で高頻度タスクを処理する、高速かつスコープを絞ったモデルです。スタック内のすべてのモデルを置き換えることが目的ではなく、スタック全体を「速く・安く・制御しやすく」することが目標です。

利用開始

IDE 内、RAG パイプライン、エージェントワークフロー、プライベートインフラなど、ソフトウェアエンジニアリング向け AI システムを構築している場合、Hugging Face の公式コレクションからすぐに試すことができます。