NVIDIA Nemotron 3 Nano Omni 30B-A3B：文書・音声・動画を統合処理するオープンマル...

記事のサマリー（TL;DR）

Nemotron 3 Nano Omni（30B-A3B）はテキスト・画像・動画・音声を統合処理するオープンウェイトモデルで、2026年4月28日公開
MMLongBench-Doc で57.5点、OSWorld で47.4点を記録し、Qwen3-Omni 30B-A3B を複数タスクで上回る
マルチ文書ユースケースで7.4倍、動画ユースケースで9.2倍のシステムスループットを競合比で達成

日本企業のドキュメント処理・コンタクトセンター・GUI自動化への適用可能性

日本企業が扱う稟議書・契約書・規制申請書類・取扱説明書のような複数ページにわたる高密度文書は、従来のOCR＋NLPパイプラインでは構造解析が難しいケースが多くあります。Nemotron 3 Nano Omniは100ページ超の文書を単一プロンプトで処理でき、テーブル・図・数式・ページ間参照を跨いだ推論が可能です。コンタクトセンターの通話録音（複数話者・方言・背景雑音）をネイティブ音声入力として受け取り、要約・QAまで一貫処理できる点は、音声テキスト化と後工程NLPを別システムで運用している日本企業にとってアーキテクチャ刷新の検討材料になります。また、OSWorldで47.4点というGUI操作精度は、基幹システムのRPA代替や社内ポータルへのエージェント統合を検討する際の定量的な比較基準として活用できます。現行ベンチマークは英語中心であるため、日本語文書・音声への性能検証は導入前に独自評価が必要です。

詳細

モデル概要

NVIDIA Nemotron 3 Nano Omni は、実世界の文書解析・複数画像推論・自動音声認識（ASR）・長尺音声動画理解・エージェント型コンピュータ操作・汎用推論に向けて構築されたオムニモーダル理解モデルです。Nemotron マルチモーダルシリーズを視覚言語モデルからテキスト＋画像＋動画＋音声モデルへと拡張します。

複雑な文書インテリジェンスのリーダーボードである MMlongBench-Doc・OCRBenchV2 でクラス最高精度を達成し、動画・音声のリーダーボード WorldSense・DailyOmni でもトップ水準です。音声理解では VoiceBench で最高精度を記録し、MediaPerf では最もコスト効率の高いオープン動画理解モデルとして位置づけられています。

アーキテクチャとしては、Nemotron 3 ハイブリッド Mamba-Transformer MoE バックボーンに C-RADIOv4-H ビジョンエンコーダーと Parakeet-TDT-0.6B-v2 音声エンコーダーを組み合わせています。マルチモーダルコンテキストを非常に長く保持しながら、高密度な画像・文書・動画・混合モダリティ推論に対応します。

トレーニングには多段階マルチモーダルアライメントとコンテキスト拡張、続いて選好最適化とマルチモーダル強化学習を採用しています。同等のインタラクティブ性を持つ他のオープンオムニモデルと比較して、最大9倍のスループットと2.9倍のシングルストリーム推論速度を実現しています。

チェックポイントは HuggingFace で BF16・FP8・NVFP4 の3形式を公開しています。

ベンチマーク比較

タスク	ベンチマーク	Nemotron 3 Nano Omni	Nemotron Nano V2 VL	Qwen3-Omni 30B-A3B
文書理解	OCRBenchV2-En	65.8	61.2	–
文書理解	MMLongBench-Doc	57.5	38.0	49.5
文書理解	CharXiv reasoning	63.6	41.3	61.1
GUI	ScreenSpot-Pro	57.8	5.5	59.7
GUI	OSWorld	47.4	11.0	29.0
動画理解	Video-MME	72.2	63.0	70.5
動画＋音声理解	WorldSense	55.4	–	54.0
動画＋音声理解	DailyOmni	74.1	–	73.6
音声インタラクション	VoiceBench	89.4	–	88.8
ASR	HF Open ASR（低いほど良い）	5.95	–	6.55

効率性ハイライト

同等のインタラクティブ性を持つ他のオープンオムニモデルと比較して、マルチ文書ユースケースで 7.4倍、動画ユースケースで 9.2倍 高いシステム効率を実現しています（固定のユーザーあたりインタラクティブ性しきい値（tokens/sec/user）のもとで各モデルが維持できる総システムスループット）。

対象ユースケース

1. 実世界の文書解析

単純なOCRにとどまらず、レイアウト・テーブル・図・数式・セクション構造・ページ間参照に依存した理解が必要な、長大で複雑な高価値文書に対応します。契約書・技術論文・レポート・マニュアル・複数ページのフォーム・コンプライアンスパッケージなどが対象です。100ページ超の文書を処理できます。

2. 自動音声認識（ASR）

多様な音声条件（複数話者・さまざまなアクセント・背景雑音）に対応した高品質な文字起こしを実現します。長尺音声をそのまま受け取り、要約・QA・クロスモーダル推論など広範なワークフローと統合できます。

3. 長尺音声動画理解

ナレーション付き画面録画・研修動画・スライド付き会議・チュートリアル・製品デモ・カスタマーサポート録画・長尺動画アーカイブといった、音声と映像の混合証拠を必要とするエンタープライズ・開発者ワークフローに対応します。

4. エージェント型コンピュータ操作

GUI環境でのタスクを支援するためにトレーニングされており、スクリーンショットの解釈・UI状態の監視・画面上の視覚情報に基づく推論・アクション選択やワークフロー自動化の支援が可能です。

5. 汎用マルチモーダル推論

長いコンテキストウィンドウ・複数モダリティ・構造化・半構造化された証拠を横断して情報を統合する、推論集約型タスクに対応します。多段階推論・計算・テキスト・画像・テーブルなど複数入力からの一貫した回答生成ができます。

モデルアーキテクチャと主要な技術的革新

ハイブリッド Mamba-Transformer-MoE バックボーン

モデルバックボーンは以下の3要素を交互に配置しています。

23層の Mamba 選択的状態空間層：効率的な長文脈処理
23層の MoE 層：128エキスパート、上位6エキスパートルーティング、条件付き容量のための共有エキスパート
6層のグループクエリアテンション層：強力なグローバルインタラクションと表現力の維持

高密度文書・チャート・画面向けダイナミック解像度

画像ごとに 16×16パッチを可変数（最小1,024〜最大13,312パッチ） で表現します。正方形画像では512×512〜1840×1840相当です。この柔軟性は、OCR重視の文書・財務テーブル・スライド・研究図・スクリーンショット・GUIレイアウトなど高解像度で複雑な視覚入力に不可欠です。

動画向け Conv3D テンポラル圧縮

動画処理には専用の Conv3D チューブレット埋め込みを使用します。連続する2フレームをペアでチューブレットに融合してから ViT に入力するため、言語モデルが処理すべき視覚トークン数が半減します。同じトークン予算でフレーム数を2倍にするか、同じフレーム数でトークン数を半減させることができます。

EVS（Efficient Video Sampling）

推論時に有効化される機能で、ビジョンエンコーダー後の冗長な動画トークンを除去します。最初のフレームを完全に保持し、以降のフレームについては動きのある「動的」トークンのみ保持し、変化のない「静的」トークンを削除します。Conv3D と組み合わせることで優れた圧縮を実現します。

ネイティブ音声入力

音声側は Parakeet-TDT-0.6B-v2 で処理し、2層 MLP プロジェクターでバックボーンと接続します。音声は 16kHz でサンプリングし、最大 1,200秒（20分） の入力でトレーニングされており、LLM の最大コンテキスト長は 5時間以上 をサポートします。

軽量モダリティプロジェクターと統合トークンインターリービング

各エンコーダーは2層 MLP プロジェクターで LLM に接続されます。射影後、視覚・音声・テキストトークンがインターリービングされてバックボーン内で共同処理されます。

トレーニングデータ・インフラ・システム

SFT ステージは NVIDIA H100 でトレーニングし、ステージに応じて32〜128ノードに拡張します。スタックは Megatron-LM・Transformer Engine・Megatron Energon を使用し、テンソル並列・エキスパート並列・シーケンス並列・長文脈ステージ向けコンテキスト並列・オンラインシーケンスパッキング・選択的活性化再計算を採用しています。

SFT後の強化学習には NeMo-RL と NeMo Gym（Megatron バックエンド）を使用し、B200 および H100 クラスター 上で Ray ベースの分散セットアップを用いています。

RL によるマルチモーダル挙動の形成

テキスト RL トレーニングはツール呼び出し・コード記述・多段階計画などアクションシーケンスを NeMo-Gym 内の多様な環境で評価します。オムニ RL は画像・動画・音声・テキストを横断した推論を統一フレームワークでトレーニングします。多様な検証スイートが複数選択・数学・GUI グラウンディング・ASR などの出力形式を評価し、証拠が不十分な場合は回答を控えさせるために回答不能なケースも意図的に含んでいます。

データパイプライン

実際のPDFの大規模コーパスから NeMo Data Designer を使って約 1,140万件の合成 QA ペア（約450億トークン） を生成しました。このデータセットはポストトレーニング中の長文脈文書推論強化に使用され、MMLongBench-Doc 全体精度で 2.19倍の改善 をもたらしました。

入手先

リソース	リンク
HuggingFace BF16 チェックポイント	nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16
HuggingFace FP8 チェックポイント	nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-FP8
HuggingFace NVFP4 チェックポイント	nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-NVFP4
技術レポート	arxiv.org/abs/2604.24954
データセット	nvidia/Nemotron-Image-Training-v3

NVIDIA Nemotron 3 Nano Omni 30B-A3B：文書・音声・動画を統合処理するオープンマルチモーダルモデル