記事のサマリー(TL;DR)
- 30B MoE・有効 3B パラメータの North Mini Code が Apache 2.0 で Hugging Face に公開。SWE-Bench や Terminal-Bench で同サイズ帯最高水準を達成
- Artificial Analysis Coding Index スコア 33.4 で Qwen3.5-35B、Gemma 4-26B、Devstral 2 (123B)、Nemotron Super (120B) を上回る
- 非同期 RL(CISPO)+マルチハーネス学習で、エージェントの安定性・ツールコールの正確さが大幅向上
国内エージェントコーディング基盤の選定に関わる開発チームへの影響
North Mini Code は Apache 2.0 で公開されており、商用利用に制限がない。BF16 と FP8(量子化済み)の両ウェイトが Hugging Face から直接入手できるため、AWS/GCP 上の自社 GPU インフラへのオンプレ展開が容易だ。
国内では OpenAI や Anthropic の API に依存したコーディングエージェント構成が一般的だが、North Mini Code のようなオープンウェイトモデルを採用することで、コードの社外流出リスクを抑えながら自社サーバ上でエージェントを動かす選択肢が現実的になる。特に金融・医療・製造など機密コードを扱う業種では検討価値が高い。
OpenCode・SWE-Agent・mini-SWE-Agent のいずれのハーネスでも安定動作するよう学習されている点は、ツール選定の柔軟性を確保したい開発チームにとって実用上のメリットが大きい。kintone や Salesforce 向け Rails 補完 UI、Shopify の Checkout 拡張など、既存 SaaS に手を加えるエージェント自動化タスクとの相性が考えられる構成だ。
詳細
モデル概要
Cohere は 2026 年 6 月、North Mini Code を正式公開した。30B パラメータのスパース Mixture-of-Experts (MoE) モデルで、1 トークンあたり 8 エキスパートが起動する(全 128 エキスパート中)。実際に使用されるアクティブパラメータは 3B と小さく、推論コストを抑えながら高い性能を発揮する設計だ。
アーキテクチャの主要特徴は以下の通り:
- 注意機構:スライディングウィンドウ注意(RoPE 付き)とグローバル注意(位置埋め込みなし)を 3:1 の比率でインターリーブ
- FFN ブロック:SwiGLU 活性化の MoE ブロック。ルーターはロジットにシグモイドを適用してから top-k を選択
- 最初のスパース層の前に単一のデンス層を配置
Artificial Analysis の Coding Index では 33.4 点を記録。同スコアで上回った主なモデルは次の通り:
| モデル | パラメータ |
|---|---|
| Qwen3.5 | 35B-A3B |
| Gemma 4 | 26B-A4B |
| Devstral Small 2 | 24B(Dense) |
| Nemotron 3 Super | 120B-A12B |
| Mistral Small 4 | 119B-A6B |
| Devstral 2 | 123B |
後処理(Post-Training)によるコーディング強化
後処理は 2 段階の SFT → RLVR の 3 フェーズ構成で実施された。
第 1 段階 SFT
データ構成の内訳:
- コードデータ:学習トークンの 70%(うちエージェントツール使用データ 43%、競技/科学プログラミングデータ 27%)
- プログラミング・推論・命令追従など幅広いドメインを混在させてロバスト性を確保
- コンテキスト長:64K トークン
第 2 段階 SFT
- 45 億トークンのデータ混合。エージェント・推論主体のサンプルのみ使用
- コードデータが学習トークンの 61% を占め、ツールコールと補完の実行可否が検証済み
- コンテキスト長:128K トークン(「長から更に長へ」のカスケードアプローチ)
- 7 万件超の検証可能タスク・約 5,000 のユニークリポジトリを使用
- SWE-Bench および SWE-Bench-Pro のリポジトリソースと重複排除を実施し、評価時のデータ漏洩を防止
最終 SFT モデルの性能:
- SWE-Bench Verified:pass@10 = 80.2%
- Terminal-Bench v2:pass@10 = 55.1%
複数ハーネスへのロバスト対応
実世界のコーディングエージェントは SWE-Agent・mini-SWE-Agent・OpenCode など、互いに異なるツール呼び出し方式を持つハーネス上で動作する。
- SWE-Agent:bash / str_replace_editor / submit ツールを持つリッチな CLI インタフェース
- mini-SWE-Agent:単一の bash ツールのみ。フィードバックは生のシェル stdout
- OpenCode:edit / grep / todowrite / task など細粒度の型付きツールで JSON 応答を返す
North Mini Code は第 2 段階 SFT のデータ混合に追加ハーネスデータを 6% 加えることで、クロスハーネス汎化を実現した。この変更によって OpenCode ハーネス評価で +10% 向上を達成しつつ、SWE-Agent の SWE-Bench Verified 性能は維持された。
mini-SWE-Agent では pass@1 = 61.0% を記録。ハーネス間のツール能力に重複があれば正の転移が生じることが確認された。また、ハーネス間でスキルが相補的であり、学習時のデータ競合が最小限であることも観測されている。
非同期 RL によるエージェントコーディング強化
コーディングエージェントのロールアウトは長く、最長トレースは中央値の 10 倍以上になることがある。同期的な RL ループでは最長トレースの完了を待機するため、スループットが低下する。そこで North Mini Code ではサンプリングと学習を分離した非同期アーキテクチャを採用した。
主要な設計選択:
- vLLM サイドカーがロールアウトを継続生成し、トレーナーは数ステップ(K=4)ごとにポリシーウェイトを更新
- ウィンドウ付き FIFO キュー(Forge 実装)を使用し、ストラグラー(遅延トレース)を効率的に処理
- CISPO アルゴリズムを採用:トークンレベルの重要度サンプリング補正を加えた対数尤度目的関数。PPO / GRPO とは異なり、長いエージェントトレースのグラジェント信号がダウンウェイトされない
RL 学習の構成:
- 1 回のマルチ環境 RL 実行でターミナルタスクとソフトウェアエンジニアリングタスクを同時訓練
- バッチサイズ:512 ロールアウト(プロンプトあたりグループサイズ 8)
- グローバルコンテキストウィンドウ:128K トークン
- 報酬はユニットテストベースの検証器から導出するバイナリ報酬。無効なツールコールや解析不能な出力には報酬 0 を付与
RLVR 後の性能改善(SFT チェックポイント比):
- Terminal-Bench v2:pass@1 が +7.9%(絶対値)向上
- SWE-Bench Verified:pass@1 が +3.0%(絶対値)向上
- 両環境の同時学習は個別学習より高性能で、分布外タスクへの汎化も向上
- 繰り返しのツールコールループが減少し、軌跡が短縮。ソリューションの確実な提出が増加
内部ヒューマン評価ベンチマーク
Cohere は既存ベンチマークを補完するため、OpenCode × Harbor でモデルを動かしつつ、人間アノテーターによるペアワイズ評価を実施した。評価観点は以下の 4 項目:
- コード説明:リポジトリの技術的側面を README または直接回答で説明
- コード編集:既存コードベースをもとに機能を実装
- データビジュアライゼーション:指定フレームワークでデータを可視化(追加コードなし)
- スクラッチ実装:設計仕様とパッケージ指定のみからプロジェクトを新規作成(フロントエンドデザイン重視)
評価はルーブリック形式の 5 点 Likert スケールで個別評価後、最終的な選好度を付与する形式。85 サンプルで評価した結果、最終モデルの SFT チェックポイントに対する総合勝率は 66.1% だった。特にコード編集タスクでの改善が顕著だった。
入手方法
North Mini Code は以下のチャネルで利用できる:
- Hugging Face:BF16 ウェイトおよび FP8(量子化)ウェイト(Apache 2.0 ライセンス)
- Cohere API
- OpenCode(エージェントハーネスとして直接統合)