Claude Opus 4.8 登場：エージェント精度・誠実性向上、Fast Mode が3倍安価に

記事のサマリー（TL;DR）

Claude Opus 4.8 が Opus 4.7 の後継として本日提供開始。通常利用の価格は据え置き（入力 $5/百万トークン、出力 $25/百万トークン）
Fast Mode（2.5倍速）の料金が旧モデル比 3分の1 に引き下げ。入力 $10・出力 $50/百万トークン
Online-Mind2Web でスコア 84% を記録し、ブラウザエージェント性能で GPT-5.5 を上回る

国内 Claude Code・API 利用企業が今すぐ確認すべき変更点

Opus 4.8 の価格体系は通常利用で Opus 4.7 から変わらないため、既存の API 統合はそのまま移行できます。一方、Fast Mode の料金が大幅に下がったことで、レイテンシを重視するリアルタイム処理系ワークフロー（チャット補完・文書要約・コールセンター自動応答など）でのコスト試算を見直す価値があります。

国内の kintone・Salesforce・freee 上に Claude を接続する業務 UI 構成では、Effort Control（努力量制御）の導入が実用的です。軽量な照会系タスクには低 effort、複雑な分析・レポート生成には高 effort と使い分けることで、同一のレート制限内でスループットを最適化できます。

Dynamic Workflows は Enterprise・Team・Max プランの Claude Code で利用可能なため、数十万行規模のレガシーシステム移行や、複数マイクロサービスにまたがるリファクタリング作業に活用できます。日本国内でも EC-CUBE や基幹システムの Shopify Plus / モダンスタック移行時に、テストスイートを検証基準としたコードベース一括変換の用途が考えられます。

詳細

Opus 4.8 の能力評価

Anthropic は Opus 4.8 のパフォーマンスをコーディング・エージェントスキル・推論・実務的な知識作業タスクの各ベンチマークで計測し、結果を Claude Opus 4.8 System Card で公開しています。

主なベンチマーク結果（テスター報告を含む）は以下のとおりです。

評価軸	結果
Online-Mind2Web（ブラウザエージェント）	84%（Opus 4.7・GPT-5.5 を上回る）
Legal Agent Benchmark	全パスで初めて 10% 超えを達成、同ベンチマーク最高スコア更新
Super-Agent Benchmark	Opus 4.8 のみが全ケースをエンドツーエンドで完了、GPT-5.5 とほぼ同コストで優位
CursorBench	すべての effort レベルで旧 Opus モデルを超過。ツール呼び出しのステップ数が大幅減少
Databricks Genie	Opus 4.7 比で 61% トークンコスト削減を達成

Opus 4.8 との協業事例（テスター評価より抜粋）

Claude Code 環境：「適切な質問を自ら行い、ミスを自己発見し、計画が不合理な場合に反論し、複雑なマルチサービス探索で大きな変更前に確信を積み上げる。Opus 4.7 より明らかに判断力が向上している」
翻訳・深掘りリサーチ・スライド作成・分析向けエージェント製品：「Super-Agent ベンチマークで全ケース完了した唯一のモデル。GPT-5.5 とほぼ同コストで信頼性の高い出力を提供」
法律エージェント（CoCounsel Legal）：「一貫性と推論品質が旧 Opus モデルと比較して明確に改善。高リスクな専門業務ワークフローに必要な信頼性を満たす」
財務文書処理（Hebbia）：「Opus 4.7 と同等の品質を保ちつつ、引用精度が向上しトークン効率も改善。密度の高い有価証券報告書処理に適している」
自律エンジニアリング（Devin）：「コメント冗長性とツール呼び出し問題を修正。Opus 4.7 で見られた問題が解消され、無人での継続稼働に適した信頼性を実現」
長期分析 eval：「より速く完了し、情報密度の高い出力を生成。最大の差別化要因は、分析の入出力の問題を能動的に指摘する傾向——他モデルが見落とすことを Opus 4.8 は自ら検出する」

誠実性（Honesty）の改善

Opus 4.8 の最も顕著な改善点の一つが誠実性です。AI モデル全般に共通する問題として、根拠が薄いにもかかわらず自信を持って「進捗した」と主張する傾向があります。Anthropic の評価では、Opus 4.8 は前モデル比で約 4 倍、コード内の欠陥を指摘せず見過ごす確率が低いという結果が出ています。

テスターからも「不確実性を自ら提示することが増えた」「根拠のない主張が減った」という報告が複数寄せられています。

アライメント評価

リリース前に実施した詳細なアライメント評価（詳細は System Card に記載）において、Anthropic のアライメントチームは以下の結論を出しています。

プロソーシャル特性（ユーザーの自律性支持・ユーザーの最善利益に基づく行動）が同社測定史上最高値を記録
誤整合行動（欺瞞・悪用への協力など）の発生率が Opus 4.7 を大幅に下回り、同社の最良アライメントモデルである Claude Mythos Preview と同等水準

同時リリースの新機能

Dynamic Workflows（Claude Code）

Claude Code の新機能として、研究プレビュー段階で「Dynamic Workflows」が追加されました。

単一セッション内で数百の並列サブエージェントを起動し、大規模タスクを分割実行
出力をユーザーに報告する前に自己検証を実施
活用例：数十万行規模のコードベースを対象とした移行作業をキックオフから merge まで一貫して実行し、既存テストスイートを合格基準として自律検証
利用可能プラン：Enterprise・Team・Max（Claude Code）

Effort Control（努力量制御）

claude.ai およびコワーク（Cowork）の全プランで、モデルセレクターの隣に新しい努力量コントロールが追加されました。

設定	挙動
Low（低）	高速応答、レート制限の消費が少ない
High（高、デフォルト）	品質とユーザー体験の最良バランス
Extra / xhigh	困難なタスク・長時間の非同期ワークフロー向けに推奨
Max	最大トークン消費で最高品質を追求

Claude Code では、より高い effort レベルのトークン消費量に対応するためレート制限を引き上げています。

Messages API の更新

Messages API が messages 配列内でのシステムエントリを受け付けるようになりました。開発者はタスク実行の途中でプロンプトキャッシュを破壊することなく、Claude への指示を更新できます。ユーザーターンを介さずに権限・トークン予算・環境コンテキストをエージェント動作中に変更可能です。

料金と可用性

利用区分	入力	出力
通常（Opus 4.7 と同価格）	$5 / 百万トークン	$25 / 百万トークン
Fast Mode	$10 / 百万トークン	$50 / 百万トークン

API では claude-opus-4-8 で呼び出し可能。本日より全地域で提供開始。

今後の展望

Anthropic は「Opus と同等の能力をより低コストで提供するモデル」の開発・リリースも進めています。さらに、Opus を上回る知能を持つモデルクラスとして Project Glasswing のもと Claude Mythos Preview をサイバーセキュリティ分野の一部組織向けに限定提供中です。サイバー分野でのより強固なセーフガード開発を急いでおり、「数週間以内に Mythos クラスのモデルを全顧客に提供できる見込み」としています。