事業紹介 事業紹介トップ 経営データ分析基盤 Claude / MCP 導入 育つ業務アプリ 複雑な SaaS を専用 UI に Shopify Plus 移行・拡張 生成AI 活用(Multi AI) SEO / AIO / 広告運用 顧問・アドバイザリ インフラ構築 自社メディア投資・開発
Claude Claude / MCP 総合 Claude Cowork Claude Code Claude Design MCP サーバー実装
Shopify Plus Shopify Plus トップ EC-CUBE からの移行 大手カートからの移行 Shopify 通常プラン
実績
業界ニュース 業界ニュース トップ AI ニュース └ Claude └ ChatGPT・Codex └ Gemini └ その他 Shopify ニュース SaaS ニュース お知らせ(自社発信)
会社情報 お問い合わせ
2026.06.10

Cohere が North Mini Code を公開——30B MoE の強力なエージェントコーディングモデル

記事のサマリー(TL;DR)

  • 30B MoE・有効 3B パラメータの North Mini Code が Apache 2.0 で Hugging Face に公開。SWE-Bench や Terminal-Bench で同サイズ帯最高水準を達成
  • Artificial Analysis Coding Index スコア 33.4 で Qwen3.5-35B、Gemma 4-26B、Devstral 2 (123B)、Nemotron Super (120B) を上回る
  • 非同期 RL(CISPO)+マルチハーネス学習で、エージェントの安定性・ツールコールの正確さが大幅向上

国内エージェントコーディング基盤の選定に関わる開発チームへの影響

North Mini Code は Apache 2.0 で公開されており、商用利用に制限がない。BF16 と FP8(量子化済み)の両ウェイトが Hugging Face から直接入手できるため、AWS/GCP 上の自社 GPU インフラへのオンプレ展開が容易だ。

国内では OpenAI や Anthropic の API に依存したコーディングエージェント構成が一般的だが、North Mini Code のようなオープンウェイトモデルを採用することで、コードの社外流出リスクを抑えながら自社サーバ上でエージェントを動かす選択肢が現実的になる。特に金融・医療・製造など機密コードを扱う業種では検討価値が高い。

OpenCode・SWE-Agent・mini-SWE-Agent のいずれのハーネスでも安定動作するよう学習されている点は、ツール選定の柔軟性を確保したい開発チームにとって実用上のメリットが大きい。kintone や Salesforce 向け Rails 補完 UI、Shopify の Checkout 拡張など、既存 SaaS に手を加えるエージェント自動化タスクとの相性が考えられる構成だ。


詳細

モデル概要

Cohere は 2026 年 6 月、North Mini Code を正式公開した。30B パラメータのスパース Mixture-of-Experts (MoE) モデルで、1 トークンあたり 8 エキスパートが起動する(全 128 エキスパート中)。実際に使用されるアクティブパラメータは 3B と小さく、推論コストを抑えながら高い性能を発揮する設計だ。

アーキテクチャの主要特徴は以下の通り:

  • 注意機構:スライディングウィンドウ注意(RoPE 付き)とグローバル注意(位置埋め込みなし)を 3:1 の比率でインターリーブ
  • FFN ブロック:SwiGLU 活性化の MoE ブロック。ルーターはロジットにシグモイドを適用してから top-k を選択
  • 最初のスパース層の前に単一のデンス層を配置

Artificial Analysis の Coding Index では 33.4 点を記録。同スコアで上回った主なモデルは次の通り:

モデル パラメータ
Qwen3.5 35B-A3B
Gemma 4 26B-A4B
Devstral Small 2 24B(Dense)
Nemotron 3 Super 120B-A12B
Mistral Small 4 119B-A6B
Devstral 2 123B

後処理(Post-Training)によるコーディング強化

後処理は 2 段階の SFT → RLVR の 3 フェーズ構成で実施された。

第 1 段階 SFT

データ構成の内訳:

  • コードデータ:学習トークンの 70%(うちエージェントツール使用データ 43%、競技/科学プログラミングデータ 27%)
  • プログラミング・推論・命令追従など幅広いドメインを混在させてロバスト性を確保
  • コンテキスト長:64K トークン

第 2 段階 SFT

  • 45 億トークンのデータ混合。エージェント・推論主体のサンプルのみ使用
  • コードデータが学習トークンの 61% を占め、ツールコールと補完の実行可否が検証済み
  • コンテキスト長:128K トークン(「長から更に長へ」のカスケードアプローチ)
  • 7 万件超の検証可能タスク・約 5,000 のユニークリポジトリを使用
  • SWE-Bench および SWE-Bench-Pro のリポジトリソースと重複排除を実施し、評価時のデータ漏洩を防止

最終 SFT モデルの性能:

  • SWE-Bench Verified:pass@10 = 80.2%
  • Terminal-Bench v2:pass@10 = 55.1%

複数ハーネスへのロバスト対応

実世界のコーディングエージェントは SWE-Agent・mini-SWE-Agent・OpenCode など、互いに異なるツール呼び出し方式を持つハーネス上で動作する。

  • SWE-Agent:bash / str_replace_editor / submit ツールを持つリッチな CLI インタフェース
  • mini-SWE-Agent:単一の bash ツールのみ。フィードバックは生のシェル stdout
  • OpenCode:edit / grep / todowrite / task など細粒度の型付きツールで JSON 応答を返す

North Mini Code は第 2 段階 SFT のデータ混合に追加ハーネスデータを 6% 加えることで、クロスハーネス汎化を実現した。この変更によって OpenCode ハーネス評価で +10% 向上を達成しつつ、SWE-Agent の SWE-Bench Verified 性能は維持された。

mini-SWE-Agent では pass@1 = 61.0% を記録。ハーネス間のツール能力に重複があれば正の転移が生じることが確認された。また、ハーネス間でスキルが相補的であり、学習時のデータ競合が最小限であることも観測されている。


非同期 RL によるエージェントコーディング強化

コーディングエージェントのロールアウトは長く、最長トレースは中央値の 10 倍以上になることがある。同期的な RL ループでは最長トレースの完了を待機するため、スループットが低下する。そこで North Mini Code ではサンプリングと学習を分離した非同期アーキテクチャを採用した。

主要な設計選択:

  • vLLM サイドカーがロールアウトを継続生成し、トレーナーは数ステップ(K=4)ごとにポリシーウェイトを更新
  • ウィンドウ付き FIFO キュー(Forge 実装)を使用し、ストラグラー(遅延トレース)を効率的に処理
  • CISPO アルゴリズムを採用:トークンレベルの重要度サンプリング補正を加えた対数尤度目的関数。PPO / GRPO とは異なり、長いエージェントトレースのグラジェント信号がダウンウェイトされない

RL 学習の構成:

  • 1 回のマルチ環境 RL 実行でターミナルタスクソフトウェアエンジニアリングタスクを同時訓練
  • バッチサイズ:512 ロールアウト(プロンプトあたりグループサイズ 8)
  • グローバルコンテキストウィンドウ:128K トークン
  • 報酬はユニットテストベースの検証器から導出するバイナリ報酬。無効なツールコールや解析不能な出力には報酬 0 を付与

RLVR 後の性能改善(SFT チェックポイント比):

  • Terminal-Bench v2:pass@1 が +7.9%(絶対値)向上
  • SWE-Bench Verified:pass@1 が +3.0%(絶対値)向上
  • 両環境の同時学習は個別学習より高性能で、分布外タスクへの汎化も向上
  • 繰り返しのツールコールループが減少し、軌跡が短縮。ソリューションの確実な提出が増加

内部ヒューマン評価ベンチマーク

Cohere は既存ベンチマークを補完するため、OpenCode × Harbor でモデルを動かしつつ、人間アノテーターによるペアワイズ評価を実施した。評価観点は以下の 4 項目:

  1. コード説明:リポジトリの技術的側面を README または直接回答で説明
  2. コード編集:既存コードベースをもとに機能を実装
  3. データビジュアライゼーション:指定フレームワークでデータを可視化(追加コードなし)
  4. スクラッチ実装:設計仕様とパッケージ指定のみからプロジェクトを新規作成(フロントエンドデザイン重視)

評価はルーブリック形式の 5 点 Likert スケールで個別評価後、最終的な選好度を付与する形式。85 サンプルで評価した結果、最終モデルの SFT チェックポイントに対する総合勝率は 66.1% だった。特にコード編集タスクでの改善が顕著だった。


入手方法

North Mini Code は以下のチャネルで利用できる:

  • Hugging Face:BF16 ウェイトおよび FP8(量子化)ウェイト(Apache 2.0 ライセンス)
  • Cohere API
  • OpenCode(エージェントハーネスとして直接統合)