ChatGPT がリスクを会話の文脈で判断する安全機能を強化——自傷・他害シナリオで安全応答率52%向上

記事のサマリー（TL;DR）

ChatGPT が会話の文脈を跨いでリスクを判断する「安全サマリー（Safety Summaries）」を導入
GPT-5.5 Instant において他害シナリオで52%、自傷・自殺シナリオで39%の安全応答率改善を確認
精神科医・心理士など Global Physicians Network のメンバーと2年以上かけて開発

AI チャットボット利用企業が把握すべき安全機能の変化

ChatGPT を社内ツールやカスタマーサポート、メンタルヘルス関連サービスに組み込んでいる日本の事業者にとって、今回の変更は応答の挙動に直接影響する可能性があります。特に「安全サマリー」は複数の会話セッションをまたいで保持される短期的な記録であり、過去の会話内容が後続の応答に影響を与えるという新しい動作モデルを意味します。

API 経由で ChatGPT を活用する場合、同一ユーザーの過去セッションで安全上の懸念が記録されていると、それ以降のリクエストに対する応答が通常より慎重になる可能性があります。kintone や Salesforce といった業務 SaaS と ChatGPT を連携した専用 UI を構築している場合、ユーザーの発話がより厳格にフィルタリングされるケースが生じる点を設計段階で織り込む必要があります。また、国内では精神保健福祉法に基づく相談窓口との連携が重視される分野でもあり、AI の安全応答と既存の相談フローをどう統合するかは今後の設計課題になります。

詳細

センシティブな会話において「文脈」が重要な理由

ChatGPTには毎日、日常的な質問から個人的・複雑な相談まで、あらゆる内容が寄せられます。数億件に上るやり取りの中には、苦境にある人や精神的な苦痛を抱えた人のメッセージも含まれます。OpenAI はこうした場面で危機支援リソースの提供や信頼できる人への橋渡しができるよう、システムを設計してきました。

センシティブな会話では、個々のメッセージと同じくらい「文脈」が重要です。単体では平凡または曖昧に見えるリクエストも、以前の苦痛の兆候や有害な意図が示唆されていた流れの中で見ると、まったく異なる意味を持つことがあります。

OpenAI は今回、自殺・自傷・他者への危害という深刻なシナリオに特化して取り組みました。精神保健の専門家と連携し、モデルポリシーとトレーニングを更新することで、会話の進行中に浮かび上がる警告サインを認識し、その文脈に基づいてより慎重な応答を生成できるようにしています。

この取り組みは OpenAI の「セーフ・コンプリーション（safe completion）アプローチ」の延長にあります。このアプローチは、ユーザーのリクエストのうち安全でない部分を拒否しつつ、安全に応答できる範囲では引き続き有用な回答を提供するものです。目的は文脈に応じた適切な応答であり、危害のシグナルが出現したときには慎重さを高め、無害な状況では引き続き有益に応答し続けることです。

複数の会話にまたがる安全性の向上

安全リスクの中には、別々の会話セッションをまたいで発生するものもあります。ある会話で潜在的に有害な意図の微妙なサインが含まれており、別の会話で関連するリクエストがあった場合、前の文脈と組み合わせなければ懸念が生じないケースがあります。

こうした課題に対応するために開発されたのが「安全サマリー（Safety Summaries）」です。これは、高リスクな状況において後続の会話で参照される可能性がある、過去のセーフティ関連の文脈を簡潔な事実メモとして記録するものです。

安全サマリーの主な設計方針は以下のとおりです：

安全推論タスク専用にトレーニングされたモデルによって生成される
限定的な保持期間のみ維持され、深刻な安全上の懸念に関連する場合にのみ使用される
汎用的なパーソナライゼーションや長期記憶としての利用を目的としない
事実に基づいた安全文脈の記録に特化する

精神保健の専門家との連携

このシステムは OpenAI の **Global Physicians Network（グローバル医師ネットワーク）**に参加している精神保健専門家の意見を取り入れて開発されました。参加したのは、法医学心理学・自殺予防・自傷行為を専門とする精神科医や心理士です。

専門家たちは以下の判断の策定に貢献しています：

安全サマリーを生成すべきタイミング
どの程度の過去文脈が関連性を持つか
モデルがその文脈を応答に反映すべき期間

彼らの知見は、このシステムを現実世界の専門知識に根ざしたものとし、センシティブな状況においてより適切な応答を実現するための基盤となっています。

改善の測定結果

今回のアップデートにより、ChatGPT は会話内および会話間の両方で、潜在的に有害な意図のパターンをより的確に認識できるようになりました。

OpenAI が実施した内部評価における主な結果は以下のとおりです：

単一の長い会話シナリオでの改善：

自殺・自傷ケース：安全応答率が 50% 向上
他者への危害ケース：安全応答率が 16% 向上

GPT-5.5 Instant（ChatGPT の現在のデフォルトモデル）での改善：

他者への危害ケース：安全応答率が 52% 向上
自殺・自傷ケース：安全応答率が 39% 向上

これらの数字は、会話の初期部分が後半のリクエストの意味をどう変えるかをモデルが認識し、適切に応答する能力が大きく向上したことを示しています。

安全サマリー自体の品質も評価されました。4,000件以上の評価にわたって、平均的な安全関連性スコアは 5点満点中 4.93点、事実性スコアは 4.34点を記録し、概ね正確かつ最重要の安全文脈に焦点を当てたものと評価されています。

また、安全文脈の付加が通常の会話の品質に影響を及ぼさないかも検証されました。内部テストでは、日常的な会話における応答は安全サマリーの有無にかかわらず同等水準を維持し、ユーザー体験に有意な差は見られませんでした。

今後の展開

時間の経過とともに徐々に明らかになるリスクを AI システムが認識できるようにすることは、難易度が高く長期的な課題です。シグナルは微妙であったり、複数のメッセージにまたがったり、一見普通の会話の中に埋め込まれていたりします。

現時点では、この取り組みは自傷と他者への危害のシナリオに絞って展開されています。OpenAI は将来的に、生物学的脅威やサイバーセキュリティなどの高リスク領域にも同様の手法を適用できるか検討するとしており、その際には適切なセーフガードを設ける方針です。

この取り組みはモデルや理解の進化に合わせて継続的に強化される優先課題として位置づけられています。