Cohere が North Mini Code を公開——30B MoE の強力なエージェントコーディングモデル

記事のサマリー（TL;DR）

30B MoE・有効 3B パラメータの North Mini Code が Apache 2.0 で Hugging Face に公開。SWE-Bench や Terminal-Bench で同サイズ帯最高水準を達成
Artificial Analysis Coding Index スコア 33.4 で Qwen3.5-35B、Gemma 4-26B、Devstral 2 (123B)、Nemotron Super (120B) を上回る
非同期 RL（CISPO）＋マルチハーネス学習で、エージェントの安定性・ツールコールの正確さが大幅向上

国内エージェントコーディング基盤の選定に関わる開発チームへの影響

North Mini Code は Apache 2.0 で公開されており、商用利用に制限がない。BF16 と FP8（量子化済み）の両ウェイトが Hugging Face から直接入手できるため、AWS/GCP 上の自社 GPU インフラへのオンプレ展開が容易だ。

国内では OpenAI や Anthropic の API に依存したコーディングエージェント構成が一般的だが、North Mini Code のようなオープンウェイトモデルを採用することで、コードの社外流出リスクを抑えながら自社サーバ上でエージェントを動かす選択肢が現実的になる。特に金融・医療・製造など機密コードを扱う業種では検討価値が高い。

OpenCode・SWE-Agent・mini-SWE-Agent のいずれのハーネスでも安定動作するよう学習されている点は、ツール選定の柔軟性を確保したい開発チームにとって実用上のメリットが大きい。kintone や Salesforce 向け Rails 補完 UI、Shopify の Checkout 拡張など、既存 SaaS に手を加えるエージェント自動化タスクとの相性が考えられる構成だ。

詳細

モデル概要

Cohere は 2026 年 6 月、North Mini Code を正式公開した。30B パラメータのスパース Mixture-of-Experts (MoE) モデルで、1 トークンあたり 8 エキスパートが起動する（全 128 エキスパート中）。実際に使用されるアクティブパラメータは 3B と小さく、推論コストを抑えながら高い性能を発揮する設計だ。

アーキテクチャの主要特徴は以下の通り：

注意機構：スライディングウィンドウ注意（RoPE 付き）とグローバル注意（位置埋め込みなし）を 3:1 の比率でインターリーブ
FFN ブロック：SwiGLU 活性化の MoE ブロック。ルーターはロジットにシグモイドを適用してから top-k を選択
最初のスパース層の前に単一のデンス層を配置

Artificial Analysis の Coding Index では 33.4 点を記録。同スコアで上回った主なモデルは次の通り：

モデル	パラメータ
Qwen3.5	35B-A3B
Gemma 4	26B-A4B
Devstral Small 2	24B（Dense）
Nemotron 3 Super	120B-A12B
Mistral Small 4	119B-A6B
Devstral 2	123B

後処理（Post-Training）によるコーディング強化

後処理は 2 段階の SFT → RLVR の 3 フェーズ構成で実施された。

第 1 段階 SFT

データ構成の内訳：

コードデータ：学習トークンの 70%（うちエージェントツール使用データ 43%、競技/科学プログラミングデータ 27%）
プログラミング・推論・命令追従など幅広いドメインを混在させてロバスト性を確保
コンテキスト長：64K トークン

第 2 段階 SFT

45 億トークンのデータ混合。エージェント・推論主体のサンプルのみ使用
コードデータが学習トークンの 61% を占め、ツールコールと補完の実行可否が検証済み
コンテキスト長：128K トークン（「長から更に長へ」のカスケードアプローチ）
7 万件超の検証可能タスク・約 5,000 のユニークリポジトリを使用
SWE-Bench および SWE-Bench-Pro のリポジトリソースと重複排除を実施し、評価時のデータ漏洩を防止

最終 SFT モデルの性能：

SWE-Bench Verified：pass@10 = 80.2%
Terminal-Bench v2：pass@10 = 55.1%

複数ハーネスへのロバスト対応

実世界のコーディングエージェントは SWE-Agent・mini-SWE-Agent・OpenCode など、互いに異なるツール呼び出し方式を持つハーネス上で動作する。

SWE-Agent：bash / str_replace_editor / submit ツールを持つリッチな CLI インタフェース
mini-SWE-Agent：単一の bash ツールのみ。フィードバックは生のシェル stdout
OpenCode：edit / grep / todowrite / task など細粒度の型付きツールで JSON 応答を返す

North Mini Code は第 2 段階 SFT のデータ混合に追加ハーネスデータを 6% 加えることで、クロスハーネス汎化を実現した。この変更によって OpenCode ハーネス評価で +10% 向上を達成しつつ、SWE-Agent の SWE-Bench Verified 性能は維持された。

mini-SWE-Agent では pass@1 = 61.0% を記録。ハーネス間のツール能力に重複があれば正の転移が生じることが確認された。また、ハーネス間でスキルが相補的であり、学習時のデータ競合が最小限であることも観測されている。

非同期 RL によるエージェントコーディング強化

コーディングエージェントのロールアウトは長く、最長トレースは中央値の 10 倍以上になることがある。同期的な RL ループでは最長トレースの完了を待機するため、スループットが低下する。そこで North Mini Code ではサンプリングと学習を分離した非同期アーキテクチャを採用した。

主要な設計選択：

vLLM サイドカーがロールアウトを継続生成し、トレーナーは数ステップ（K=4）ごとにポリシーウェイトを更新
ウィンドウ付き FIFO キュー（Forge 実装）を使用し、ストラグラー（遅延トレース）を効率的に処理
CISPO アルゴリズムを採用：トークンレベルの重要度サンプリング補正を加えた対数尤度目的関数。PPO / GRPO とは異なり、長いエージェントトレースのグラジェント信号がダウンウェイトされない

RL 学習の構成：

1 回のマルチ環境 RL 実行でターミナルタスクとソフトウェアエンジニアリングタスクを同時訓練
バッチサイズ：512 ロールアウト（プロンプトあたりグループサイズ 8）
グローバルコンテキストウィンドウ：128K トークン
報酬はユニットテストベースの検証器から導出するバイナリ報酬。無効なツールコールや解析不能な出力には報酬 0 を付与

RLVR 後の性能改善（SFT チェックポイント比）：

Terminal-Bench v2：pass@1 が +7.9%（絶対値）向上
SWE-Bench Verified：pass@1 が +3.0%（絶対値）向上
両環境の同時学習は個別学習より高性能で、分布外タスクへの汎化も向上
繰り返しのツールコールループが減少し、軌跡が短縮。ソリューションの確実な提出が増加

内部ヒューマン評価ベンチマーク

Cohere は既存ベンチマークを補完するため、OpenCode × Harbor でモデルを動かしつつ、人間アノテーターによるペアワイズ評価を実施した。評価観点は以下の 4 項目：

コード説明：リポジトリの技術的側面を README または直接回答で説明
コード編集：既存コードベースをもとに機能を実装
データビジュアライゼーション：指定フレームワークでデータを可視化（追加コードなし）
スクラッチ実装：設計仕様とパッケージ指定のみからプロジェクトを新規作成（フロントエンドデザイン重視）

評価はルーブリック形式の 5 点 Likert スケールで個別評価後、最終的な選好度を付与する形式。85 サンプルで評価した結果、最終モデルの SFT チェックポイントに対する総合勝率は 66.1% だった。特にコード編集タスクでの改善が顕著だった。

入手方法

North Mini Code は以下のチャネルで利用できる：

Hugging Face：BF16 ウェイトおよび FP8（量子化）ウェイト（Apache 2.0 ライセンス）
Cohere API
OpenCode（エージェントハーネスとして直接統合）