記事のサマリー(TL;DR)
- OpenAI が 2026年5月7日、Realtime API に3つの音声モデルを追加。GPT-Realtime-2 は GPT-5 クラスの推論と 128K コンテキストを持つ
- GPT-Realtime-Translate は 70言語以上の入力・13言語の出力に対応したリアルタイム翻訳モデル。BolnaAI の評価では他モデル比で単語誤り率(WER)12.5%低減
- 価格は GPT-Realtime-2 が入力 $32/1M トークン・出力 $64/1M トークン、翻訳は $0.034/分、文字起こしは $0.017/分
国内コールセンター・多言語カスタマーサポートへの影響
日本では外国人観光客・在住者の増加に伴い、多言語対応コールセンターや EC サイトのカスタマーサポートの需要が高まっています。GPT-Realtime-Translate が 70言語以上の入力と 13言語の出力をリアルタイムで処理できる点は、日本語・英語・中国語・韓国語・ヒンディー語などを同時にカバーしたい事業者にとって実用的な選択肢です。
また、GPT-Realtime-2 が持つ「ツール並列呼び出し」「推論レベル調整(minimal〜xhigh)」「128K コンテキスト」といった機能は、Salesforce や kintone などの業務 SaaS と音声インターフェースを組み合わせた「Voice-to-Action」型エージェント構築に直結します。Zillow の事例では、プロンプト最適化後のコール成功率が 69% → 95%(+26pt)に向上しており、日本のカスタマーサポート業務への応用でも同様のベンチマーク改善が見込めます。
EU データレジデンシーへの対応が明記されており、日本法人が EU 域内データを扱うシナリオでもコンプライアンスリスクを管理しやすい構成です。
詳細
音声 AI の3つの新しいパターン
OpenAI は今回のリリースにあたり、開発者が活用できる音声 AI の代表的なユースケースを3つのパターンに整理しています。
- Voice-to-Action:ユーザーがリクエストを口頭で伝え、モデルが推論・ツール呼び出し・タスク実行を行う。Zillow は「BuyAbility(購入可能価格帯)に合う物件を見つけて土曜日のツアーを予約して」といったリクエストに対応するアシスタントを構築中
- Systems-to-Voice:ソフトウェアが文脈を読み取り、音声でリアルタイムに案内する。例として、フライト遅延時に接続便・ゲート・最速ルートを自動案内する旅行アプリを挙げている
- Voice-to-Voice:AI が言語をまたいでリアルタイムに会話を継続させる。Deutsche Telekom はユーザーが好みの言語で話せるカスタマーサポートを構築中
Priceline は3パターンを組み合わせ、フライト・ホテルの音声検索から予約変更、TSA 待ち時間のリアルタイム確認、現地での多言語翻訳まで、旅行全行程を音声で完結させる体験を開発中です。
GPT-Realtime-2:音声モデルが推論・行動する
GPT-Realtime-2 は、会話を進めながら推論・ツール呼び出し・割り込み処理・文脈管理を同時に行うために設計されたモデルです。主な機能は以下の通りです。
- プリアンブル(Preambles):「少々お待ちください」「確認中です」など、処理中であることをユーザーに伝える短いフレーズを応答前に自動挿入
- ツール並列呼び出しと透明性(Parallel tool calls):複数のツールを同時に呼び出し、「カレンダーを確認しています」「検索中です」などの音声フィードバックで処理状況を伝える
- リカバリー動作の強化:失敗時に無音になったり会話が途切れたりせず、「現在その処理に問題が発生しています」などと伝えてから復帰
- コンテキストウィンドウ拡張:32K → 128K に拡大し、長時間の会話やエージェント型ワークフローに対応
- ドメイン理解の強化:医療用語・固有名詞・専門語彙の保持精度が向上
- トーン制御:問題解決中は落ち着いたトーン、ユーザーが苛立っているときは共感的なトーン、タスク完了時はポジティブなトーンへの切り替えが可能
- 推論レベルの調整:minimal / low(デフォルト)/ medium / high / xhigh の5段階から選択可能。低レイテンシが必要な場面と、複雑なリクエストへの精度が必要な場面で使い分けられる
ベンチマーク結果
| ベンチマーク | 比較対象 | 向上幅 |
|---|---|---|
| Big Bench Audio(音声知能) | GPT-Realtime-1.5 | +15.2%(high 設定) |
| Audio MultiChallenge(指示遵守) | GPT-Realtime-1.5 | +13.8%(xhigh 設定) |
- Big Bench Audio:音声入力をサポートする言語モデルの高難度推論を評価するベンチマーク
- Audio MultiChallenge:マルチターン会話知能(指示遵守・文脈統合・自己一貫性・音声修正への対応)を評価するベンチマーク
Zillow の事例では、最も難易度の高い敵対的ベンチマークでプロンプト最適化後のコール成功率が 69% から 95%(+26pt)に向上。フェアハウジング(公正住宅法)コンプライアンスの堅牢性も向上したことが報告されています(Josh Weisberg, SVP and Head of AI, Zillow)。
GPT-Realtime-Translate:70言語超のライブ音声翻訳
GPT-Realtime-Translate は、会話中にリアルタイムで音声翻訳を行うモデルです。各話者が自分の言語で話し、相手の言語で翻訳音声を聞き、リアルタイム文字起こしも同時に取得できます。
- 入力言語:70言語以上
- 出力言語:13言語
- 用途:カスタマーサポート・越境販売・教育・イベント・メディア・クリエイタープラットフォームなど
Deutsche Telekom は多言語音声インタラクションへの適用をテスト中。Vimeo は製品説明動画をライブ翻訳しながら配信するユースケースを実証しています。
BolnaAI(インド)の評価では、ヒンディー語・タミル語・テルグ語において他モデル比で単語誤り率(WER)を 12.5% 低減し、フォールバック率低下・タスク完了率向上・自然な会話を維持できるレイテンシを達成したと報告されています(Prateek Sachan, Co-founder & CTO, BolnaAI)。
GPT-Realtime-Whisper:低遅延ストリーミング文字起こし
GPT-Realtime-Whisper は、話しながら即時に文字起こしを行うストリーミング型の音声認識モデルです。
主なユースケース:
- 会議・授業・放送・イベントのリアルタイムキャプション
- 会話進行中のメモ・サマリー生成
- 継続的な音声理解が必要な音声エージェント
- カスタマーサポート・医療・営業・採用など高頻度の音声業務でのフォローアップワークフロー高速化
安全対策
Realtime API にはセーフガードが多層構造で組み込まれています。
- アクティブな有害コンテンツ分類機能:セッション中に違反が検出された場合、会話を停止
- Agents SDK による追加ガードレールの実装が可能
- スパム・詐欺・有害目的への出力再利用はポリシーで禁止
- ユーザーへの AI 開示義務:文脈上明らかでない限り、エンドユーザーに AI と対話していることを明示する必要あり
- EU データレジデンシー完全対応・エンタープライズプライバシーコミットメントの対象
料金と提供状況
3モデルは Realtime API で利用可能(2026年5月7日時点)。
| モデル | 料金 |
|---|---|
| GPT-Realtime-2 | 入力: $32 / 1M トークン(キャッシュ済み入力: $0.40 / 1M トークン)、出力: $64 / 1M トークン |
| GPT-Realtime-Translate | $0.034 / 分 |
| GPT-Realtime-Whisper | $0.017 / 分 |
Playground での動作確認および Codex を使った既存アプリへの組み込みが可能です。