記事のサマリー(TL;DR)
- AI研究機関METRが2026年2月、開発者の多くが「AIなしでは実験参加も拒否」する実態を報告
- AmazonはAI利用量トラッキング指標「Kirorank」を廃止、Uberは2026年AI予算を4ヶ月で使い切るも生産性向上は計測できず
- シンガポール経営大学の調査で「AIコードは人間比1.7倍の問題を生成し、長期保守コストを増大させる」と警告
国内開発チームが直視すべきAIコーディングの収支構造
日本のソフトウェア開発現場でも、GitHub CopilotやClaude Codeといったツールの導入は急速に進んでいます。しかし本記事が伝えるAmazonやUberの事例は、「使用量=生産性」という前提が崩れつつあることを示しており、国内の情報システム部門や開発ベンダーにとって他人事ではありません。
kintoneやSalesforceなどの業務SaaSにAI補完UIを組み合わせる構成や、Shopify PlusのCheckout Extensionを独自拡張するプロジェクトなど、開発期間の短縮を目的にAI生成コードを多用するケースでは、保守フェーズのコスト試算を事前に行っておくことが現実的な対策です。「AIが書いた分だけレビュー工数が増える」という構造を前提にした品質保証プロセスの設計が、特にリリース後の運用まで責任を持つ内製チームや受託開発チームには求められます。
詳細
AIなしでは実験にも参加しない開発者
2026年2月、AI研究機関METR(Machine Intelligence Research Institute系の独立研究機関)は注目すべき報告を公開しました。METRは2025年末に実施した先行研究——オープンソース開発者がAIありとAIなしでタスクをこなす時間を比較した実験——のフォローアップを試みましたが、開発者たちが「AIなしで作業することを望まない」という理由で参加を拒否したため、実験自体を断念せざるを得ませんでした。
先行研究では皮肉な結果が出ていました。開発者たちは主観的にはAIが生産性を高めると感じていたにもかかわらず、実際の計測では作業時間がむしろ延びていたのです。AIがコードを生成するのは速くなっても、エラーの発見・修正、AIの出力を誘導する作業、待機時間などが積み重なった結果でした。
「トークン最大化」という幻想の崩壊
2026年のトレンドとして広まったのが「Tokenmaxxing(トークンマキシング)」——AIへのトークン使用量を生産性の代替指標とする考え方です。しかし、この指標がすでに機能不全に陥りつつあることを示す事例が相次いでいます。
Amazon は、社内のAI利用量ランキングシステム「Kirorank」を廃止しました。Financial Times の報道によれば、従業員がランキングを上げるためにAIエージェントを過剰に使用し、コストだけが膨らむ状態になっていたためです。
Uber は2026年のAI予算をわずか4ヶ月で使い切ったとThe Informationが報じました。COOのAndrew Macdonaldは最近のポッドキャストで、その支出がプロジェクト数や生産性の計測可能な増加につながっていないと率直に認めています。
AI生成コードは保守コストを増大させる
プログラマー兼著者のJames Shoreは、Hacker Newsでバイラルとなったブログ記事でこの問題を鋭く言語化しています。
「今は2倍速くコードを書けるようになった?ならば保守コストも半減していることを祈るべきだ。そうでなければ、詰んでいる。一時的なスピードアップと引き換えに、永続的な債務を抱えることになる」
統計面でも懸念材料が積み上がっています。信頼性エンジニアリング系スタートアップ Entelligence AI のCEO、Aiswarya Sankarは「企業がAIを使って費やすトークンの44%が、AIが生成したバグの修正に使われている」と指摘します。コードレビューツールの Code Rabbit は、オープンソースのプルリクエストを分析した結果、AIが生成したコードは人間によるコードと比べて1.7倍の問題を含むと報告しています。
これらはAIコードレビュー製品を販売する企業の数字であり、一定の割り引きは必要です。しかし独立した学術機関である シンガポール経営大学(SMU) も2026年4月の報告書で同様の警告を発しています。「AIが生成したコードは、実際のソフトウェアプロジェクトに長期的な保守コストをもたらす可能性がある」というのがその結論です。
AIコーディングエージェントは「解決策」になるか
AIコーディングエージェント「Devin」を開発するCognitionの創業者兼CEOであるScott Wuは、AIが生成したバグをAIエージェントに修正させるというアプローチを提案しています。しかし自身も認めているように、Devinの現時点でのスキルレベルは「タスクによってジュニアからミッドレベルの開発者の間」であり、渡しっぱなしにできる段階ではありません。
SMUの研究者たちはより堅実なアプローチを提唱します。
- 開発者はAIが得意なタスクと苦手なタスクを、好きなプログラミング言語を知るのと同じ深さで把握すること
- AI専用に設計された強固な品質保証システムを整備すること
- AIの出力をジュニア開発者のコードと同様に丁寧にレビューし続けること
- ソフトウェアアーキテクチャやセキュリティ設計といった俯瞰的な作業は引き続き人間が担当すること
Scott Wuもこの最後の点については同意しており、AIと人間の役割分担の再設計が業界全体の課題として浮上しています。