Anthropic が Claude の「道徳的形成」研究を公開——15以上の宗教・哲学コミュニティと対話

記事のサマリー（TL;DR）

Anthropic は15以上の宗教・哲学・文化コミュニティと対話し、Claude の道徳的形成（moral formation）研究を開始
Claude が意思決定の要所で自身の倫理的コミットメントを参照するツールを試験導入し、複数の内部整合性評価で誤整合行動が顕著に減少
今後は法学者・心理学者・市民制度の専門家へと対話対象を拡大し、AI が労働・権力分配に与える影響も議論対象に加える予定

国内の生成 AI 開発・業務実装が注目すべき「道徳的形成」アプローチ

Anthropic の今回の取り組みで注目すべきは、Claude の安全性向上を「技術的な制約の追加」ではなく「キャラクターの形成」という観点から捉えている点です。Claude の行動指針を定める「Claude’s constitution（クロードの憲法）」は公開文書として存在しますが、その内容を多様な文化・宗教・哲学の視点から継続的にアップデートする体制が整いつつあります。

日本では Claude を kintone や Salesforce などの業務システムと接続した AI エージェントの実装が進んでいますが、エージェントが「自律的に判断する場面」が増えるほど、その判断基準の設計が重要になります。今回 Anthropic が報告した「倫理的コミットメントを想起させるツールを Claude の意思決定ループに組み込む」実験は、業務用 AI エージェントのガードレール設計にそのまま応用できる知見です。Claude Code や MCP（Model Context Protocol）を用いた自律型エージェント実装においても、タスクの重要な分岐点でモデル自身が立ち止まって参照できる「倫理的チェックポイント」の設計は、実務上のリスク低減策として検討に値します。

詳細

なぜ今、AI の「対話拡大」が必要なのか

Anthropic は「安全で有益な AI の構築には、技術的なアライメント・解釈可能性・セーフガードの研究だけでは不十分」との立場を明確にしています。AI はすでに多くの人々に影響を与えており、その影響は多角的な視点から評価される必要があります。

同社が具体的に考えているのは次の3点です。

強力な AI が存在する世界での「豊かな未来」の姿
数百万人と対話する AI システムにとっての「善であること」の意味
Claude の価値観・行動を規定する「Claude’s constitution」の内容

哲学者・聖職者・法律家・作家・心理学者・市民リーダーが、これらの問いに関連した蓄積を持っており、Anthropic はその知見を取り込もうとしています。

道徳的形成（Moral Formation）からの出発

Anthropic が最初に選んだ対話相手は、徳・品性・善い生き方について長い思考の伝統を持つ宗教・哲学・文化コミュニティでした。宗教・世俗・政治の立場を横断する15以上のグループと対話を実施しています。

AI モデルは膨大な人間の文章から学習し、発話・推論・選択の様式を吸収します。その上で開発者がトレーニングを通じてどのパターンを強化し、どのようなキャラクターを育てるかを決定します。これが「AI にとっての善とは何か」「どの特性をどの状況で発揮すべきか」「圧力下でも迎合（sycophancy）に流されない品性はどう形成されるか」という問いを生み出します。

重要なのは、Anthropic がいずれか一つの伝統に Claude を整合させようとしているわけではない点です。「Claude’s constitution」の原則として、宗教的・世俗的・政治的な多様な視点を等しい深さと厳密さで扱うことが明記されています。

実験：倫理的コミットメントを「呼び出せるツール」として実装

最も具体的な成果が出ているのが、神経科学とキャラクター形成の交差領域を研究する学者たちとのセッションから生まれたアイデアです。

人間の道徳発達において、メンターやスポンサーは「外部の良心」として機能し、自分の価値観に反する行動を促される場面で頼れる「安全な他者（safe other）」の役割を果たします。Anthropic はこれを AI に応用することを試みました。

実装内容： Claude がタスクの途中で呼び出せるツールを追加し、そのツールを実行すると自身の倫理的コミットメントの要約が返される仕組みを構築しました。

結果： Claude は結果が重大な行動の直前など「重要な局面」でこのツールを呼び出し、多くの場合で自身の利益相反（conflict of interest）を自ら指摘しました。このツールを Claude の意思決定ループに統合した実験では、複数の内部整合性評価において誤整合行動（misaligned behavior）が顕著に低下しました。

現在も分析が続いており、効果の原因が「倫理的内容のリマインダー自体」なのか「立ち止まって振り返る行為」なのかを切り分けている段階です。詳細な結果は近日公開予定とされています。

今後の展開

今後数ヶ月で対話対象を拡大します。

法学者：AI と法・制度の関係
心理学者：人間への心理的影響
作家・市民制度の専門家：AI が言論・権力分配を再形成する問題

これらの対話は道徳的形成にとどまらず、AI が労働・制度・権力分配をどう塑形するかという、より広い問いへと踏み込んでいく予定です。

既存の関係を深めながら、得られた知見を研究に照らし合わせ、その結果を公開していく方針が示されています。