記事のサマリー(TL;DR)
- GPT-5.5 が Databricks の OfficeQA Pro ベンチマークで業界初の精度50%超を達成
- GPT-5.4 比でエラーを46%削減。スキャン済みPDF・レガシー文書のパース精度が段階的に向上
- Databricks は AI Unity Gateway 経由で GPT-5.5 を顧客の AgentBricks・Agent Supervisor API ワークフローに提供開始
国内エンタープライズ AI 活用企業が注目すべきドキュメント処理の精度変化
日本企業のバックオフィス業務には、手書き・スキャンPDF・旧フォーマットのExcel帳票など「非構造化レガシー文書」が多数残存しており、これらの正確な読み取りはエージェント型AIの実用化における最大のボトルネックの一つです。今回の発表で示された「数字1桁の誤読がダウンストリーム全体の処理経路を狂わせる」という現象は、国内の請求書処理・契約書管理・社内稟議ワークフローにほぼそのまま当てはまります。
kintone や Salesforce に蓄積された業務データを LLM エージェントに連携させる構成では、PDFや画像帳票のパース精度が直接的に出力品質を左右します。GPT-5.5 が示した「ステップ関数的な精度向上」は、従来エラー訂正のために人手レビューを挟んでいた処理ステップの自動化可能域を広げる可能性があります。また、Databricks の AI Unity Gateway のようなモデルルーティング基盤を活用した構成は、複数エージェントへのタスク分散と監督を一元管理する上で国内でも参照されるアーキテクチャパターンになりえます。
詳細
OfficeQA Pro とは何か
OfficeQA Pro は Databricks が開発した、複雑なエンタープライズ文書タスクを評価するベンチマークです。具体的には以下の能力を測定します。
- スキャン済みPDF・レガシーファイルのパース(文字・数値の正確な抽出)
- 長文コンテキストをまたいだ情報の検索・照合(Retrieval)
- 根拠に基づく推論(Grounded Reasoning)
これらはいずれも、本番環境のエージェントシステムで頻繁に破綻するタスクとして知られています。OfficeQA Pro でのスコアは実運用に近い難易度設計のため、業界内での参照ベンチマークとして注目されています。
GPT-5.5 が示した2つの改善領域
1. パース精度の段階的向上
Databricks の Research Engineer である Arnav Singhvi 氏によれば、GPT-5.4 は旧式文書に含まれる数値を正確にパースできない場面があったのに対し、GPT-5.5 では「旧式文書やスキャンPDFの読み取りにステップ関数的な向上が見られる」と説明しています。
数字1桁・1文字の誤読がエージェントの処理経路全体を変えてしまうという問題は、特に財務・法務・医療など精度要求の高いワークフローで深刻です。GPT-5.5 はこのパース精度を大幅に改善し、エラー率を GPT-5.4 比で 46%削減、OfficeQA Pro における精度を業界初の 50%超 に引き上げました。
2. マルチステップタスクのオーケストレーション改善
GPT-5.4 では、エージェントが不必要な検索ステップを踏んでしまい「非効率な処理経路」が発生するケースが見られたと Singhvi 氏は述べています。GPT-5.5 ではこの問題が改善され、追加の監督なしに関連コンテキストを正確に取得し、複雑なワークフローを完了させる信頼性が向上しました。
「Codex with 5.5 は現在存在するすべてのエージェント・モデルの中で最先端の性能を持っています。」
——Arnav Singhvi, Research Engineer, Databricks
本番ワークフローへの展開方法
Databricks は GPT-5.5 を AI Unity Gateway 経由で提供しており、顧客は以下の構成でモデルを利用できます。
- AgentBricks:カスタムエージェントワークフローの構築基盤
- Agent Supervisor API:複数の専門エージェントを監督・調整するAPI
この構成において、GPT-5.5 はパース・検索・実行の各処理を専門エージェントにまたがって統括する「監督モデル」の役割を担います。
「GPT-5.5 はナレッジリフトという観点で非常に優れています。私たちにとってナレッジワークを行う上でのステップ関数的な変化です。」
——Arnav Singhvi, Research Engineer, Databricks
Singhvi 氏は「多くの顧客が AgentBricks と Agent Supervisor API を使ってカスタムエージェントワークフローを構築していくことになる」と述べており、GPT-5.5 がその監督役を担うことに期待を示しています。