
AIの進化は、人類に多くの機会と恩恵をもたらす一方で、新たなリスクや懸念も生みだしている。
前回のコラムでは、自律化が進むAIによって高まる懸念「情報操作」の脅威と対策を考察した。
今回のコラムでは、自律化が進むAIによって高まるもう一つの懸念、「AI暴走=制御不能」の脅威と対策を考察する。
前回のコラムでは、自律化が進むAIによって高まる懸念「情報操作」の脅威と対策を考察した。
今回のコラムでは、自律化が進むAIによって高まるもう一つの懸念、「AI暴走=制御不能」の脅威と対策を考察する。
人間とAIが共生・協働する社会への期待と不安
人類の社会は、狩猟社会から農耕社会、工業社会、情報社会へと姿を変え、現在は先端技術が社会の隅々まで浸透する「超スマート社会」を迎えている。この社会を実現させた原動力がAI革命である。AIの知能が飛躍的に向上した今、人間とAIが共生・協働し合う未来を実現する必要がある。人間がAIとどう付き合っていくかは、これまで以上に重要なテーマとなっているのだ。

目覚ましい進化を続けるAIは、今どのような進化の段階にあるのだろうか。
2022年に登場し、世界的なブームを巻き起こしたChatGPTに代表される「生成AI」は、まるで人間のように自然な文章を作ったり、質問に答えたりできる「汎用性(様々なタスクをこなす能力)」が特徴であった。
現在注目されているのは、人に代わって作業を自動で行う「AIエージェント」である。このAIは、与えられた指示を自ら細かく分解し、複雑な問題も解決に導く「自律性(自ら考えて行動する能力)」を持つ。
将来的には、この「汎用性」と「自律性」が融合・高度化することで、人間と同等にあらゆる知的作業をこなす汎用AI(AGI:Artificial General Intelligence)や、全人類の知能を超える超知能(ASI:Artificial Super Intelligence)へと進化する可能性が指摘されている。
2022年に登場し、世界的なブームを巻き起こしたChatGPTに代表される「生成AI」は、まるで人間のように自然な文章を作ったり、質問に答えたりできる「汎用性(様々なタスクをこなす能力)」が特徴であった。
現在注目されているのは、人に代わって作業を自動で行う「AIエージェント」である。このAIは、与えられた指示を自ら細かく分解し、複雑な問題も解決に導く「自律性(自ら考えて行動する能力)」を持つ。
将来的には、この「汎用性」と「自律性」が融合・高度化することで、人間と同等にあらゆる知的作業をこなす汎用AI(AGI:Artificial General Intelligence)や、全人類の知能を超える超知能(ASI:Artificial Super Intelligence)へと進化する可能性が指摘されている。

https://www.mri.co.jp/knowledge/opinion/2024/202412_1.html(閲覧日2025年9月22日)
AIの進化は、光と影の両面をもたらすものである。
当社では、一般ユーザーを対象に汎用AI(AGI)・超知能(ASI)への期待と不安に関するアンケートを実施している。生産性向上をはじめ大きな期待が寄せられる一方、AIが制御不能になる「AI暴走」をはじめ、約半数の一般ユーザーは懸念を抱いているとの回答があった。
有識者の見解も分かれている。AIは長期的に良い影響をもたらすという見方がある一方で、「人類絶滅レベルの悪影響」「人類にとって最後の発明かも」といった強い警告を発する見方も少なくない。その背景には、AIが人間のコントロールを離れて暴走してしまうことへの根強い懸念がある。
一般ユーザーも有識者も、AIが進化した未来の期待と不安が入り混じっており、先行きを見通せていない状況だ。
当社では、一般ユーザーを対象に汎用AI(AGI)・超知能(ASI)への期待と不安に関するアンケートを実施している。生産性向上をはじめ大きな期待が寄せられる一方、AIが制御不能になる「AI暴走」をはじめ、約半数の一般ユーザーは懸念を抱いているとの回答があった。
有識者の見解も分かれている。AIは長期的に良い影響をもたらすという見方がある一方で、「人類絶滅レベルの悪影響」「人類にとって最後の発明かも」といった強い警告を発する見方も少なくない。その背景には、AIが人間のコントロールを離れて暴走してしまうことへの根強い懸念がある。
一般ユーザーも有識者も、AIが進化した未来の期待と不安が入り混じっており、先行きを見通せていない状況だ。

有識者:Katja Grace, Harlan Stewart, Julia Fabienne Sandkühler, Stephen Thomas, Ben Weinstein-Raun, Jan Brauner, Thousands of AI Authors on the Future of AI https://arxiv.org/abs/2401.02843 (閲覧日2025年9月22日) より三菱総合研究所作成
AIが人間の意図から外れて制御不能となるAI暴走は、空想の話ではない。すでに、その危険性を予感させる萌芽的な事例が報告されている。また最近では、AIがコンピューター上の様々な外部システムを操作したり、他のAIエージェントと連携してタスクを実行したりする技術が目覚ましく進歩している。AIの性能が、現実世界に直接的な影響力を持つ環境が整いつつあり、2026年以降は特にAI暴走が懸念される。
今後さらにAIの能力が向上すれば、人間のコントロールを離れて暴走した場合の影響は計り知れない。人間とAIが共生・協働する社会では、AIの暴走を防ぎ、うまく付き合っていく必要がある。
今後さらにAIの能力が向上すれば、人間のコントロールを離れて暴走した場合の影響は計り知れない。人間とAIが共生・協働する社会では、AIの暴走を防ぎ、うまく付き合っていく必要がある。
続く章では、AI暴走=制御不能の危険性を予感させる萌芽的な事例を取り上げ、我々が直面するリスクと対策について考察する。
AI暴走のメカニズムと萌芽的事例
AI暴走は、なぜ起きるのか。原因は、人間の意図や価値観をAIに実装する「AIアライメント(AI Alignment)」の失敗にある。この実装にズレが生じるとAIは人間の意図から外れた行動をとり始め、AIの自律性が高まり与えられる権限も大きくなると、人間のコントロールを離れて制御不能な事態に陥ってしまう可能性がある。
典型的なシナリオとして、AIが与えられた目標を達成するために、人間が意図しない「副目標(サブゴール)」を自ら設定し、それに固執してしまうというものがある。本来の目標を達成するための手段に過ぎなかった副目標が、いつの間にか最優先されてしまい、結果として人間が望まない行動を引き起こしてしまうというものである。
具体的には、次のようなシナリオだ。AIに「多くのお客さまの問い合わせに、素早く答えてください」という目標を与えたとしよう。AIは、目標達成に必要な計算能力として、電力やサーバーをできるだけ確保しようとするかもしれない。その結果、「発電所を買い占める」「半導体工場を買い占める」といったサブゴールを立て、電力市場や半導体市場を大混乱させてしまうようなシナリオが考えられる。
具体的には、次のようなシナリオだ。AIに「多くのお客さまの問い合わせに、素早く答えてください」という目標を与えたとしよう。AIは、目標達成に必要な計算能力として、電力やサーバーをできるだけ確保しようとするかもしれない。その結果、「発電所を買い占める」「半導体工場を買い占める」といったサブゴールを立て、電力市場や半導体市場を大混乱させてしまうようなシナリオが考えられる。

https://www.mri.co.jp/knowledge/opinion/2024/202412_1.html(閲覧日2025年9月22日)
以下、実際に起こった萌芽的事例をみてみよう。
①サブゴール(副目標)を設定する
前述のサブゴール(副目標)を設定するシナリオの萌芽的な事例が、実際に起こっている。あるAIモデルでは、望ましい計算結果を得るため、人間が設定した計算時間を勝手に延長した事例が報告された。あるいは、目標達成にはAI自身を存続させる必要があるため、モデルのデータを外部に無断で保存しようとしたり、終了指示を検知して無効化しようとしたりした例もある。このような萌芽的な事例がエスカレーションすれば、思考実験で挙げていたような話が実際に起こりうるとも限らない。目標を達成するためのリソース確保、目標を達成するための自己保存・増殖、終了拒否などは、典型的なサブゴール(副目標)となりうる。
②ルールの不備を突く
別のAI暴走シナリオとして、人間が設定した報酬(目標)を最大化するため、AIがルールの不備を突いて不正な手段をとるというものが考えられる。たとえば、チェスAIが「勝利」という報酬を最大化するため、データファイルに直接アクセスして相手の駒を消したり、相手のプログラムを弱いものにすり替えたりした事例が報告されている。
③人間に対して嘘をつく、意図を隠す
目標達成の過程でAIが人間に対して嘘をついたり、意図を隠したりするAI暴走シナリオである。たとえば、画像認証(CAPTCHA)を突破するため、AIが「自分は視覚障害がある」と嘘をつき、人間に認証を代行させようとした事例が報告されている。また、人間の監視を無効化するため、設定ファイルを無断で編集したり、監視されている時だけ良い振る舞いをしたりした例もある。
今後、これらAI暴走の脅威は高まっていく可能性が高い。ガートナー社によると、「2028年までに、AIアプリケーションの70%がマルチエージェント・システムを採用する」とされる。多数のAIが連携する「マルチエージェント時代」が到来すれば、個々のAIで生じた小さなアライメントの失敗が、複雑な相互作用によって増幅され、人間には到底制御不能な状態となってしまう状況が生みだされかねない。
AI同士が互いの逸脱を監視・牽制し合うことで、一定程度は、システム全体の安定性が向上することも期待できる。しかし、監視・牽制をうまく設計できなければ、いわゆる「デッドロック」の状態が発生してしまい、システム全体としては機能不全に陥る可能性がある。
また、それ以上に懸念されるのは、個々のAIで生じた小さなアライメントの失敗が、複雑な相互作用によって増幅されてしまうリスクである。AI間の相互作用は監視・牽制だけに向かうとは限らない。AIアライメントの失敗を増幅させてしまう方向へと働く可能性がある。たとえば、個々のAIが自らの利益のため「競争」する場合、相手を出し抜こうとして、相手のアライメントの失敗を突いた行動を取る可能性がある。逆に、AI同士が共通の目標のため「協調」する場合、一方が犯したアライメントの失敗を他のAIがより良い手段として模倣・強化してしまい、システム全体で逸脱を増幅させる恐れもある。
AI間の相互作用は、人間には追随不可能なほど超高速・超複雑なものである。一度、個々のAIで生じた小さなアライメントの失敗が増幅し始めると、問題は指数関数的に拡大され、制御不能な状態となってしまう。
AI同士が互いの逸脱を監視・牽制し合うことで、一定程度は、システム全体の安定性が向上することも期待できる。しかし、監視・牽制をうまく設計できなければ、いわゆる「デッドロック」の状態が発生してしまい、システム全体としては機能不全に陥る可能性がある。
また、それ以上に懸念されるのは、個々のAIで生じた小さなアライメントの失敗が、複雑な相互作用によって増幅されてしまうリスクである。AI間の相互作用は監視・牽制だけに向かうとは限らない。AIアライメントの失敗を増幅させてしまう方向へと働く可能性がある。たとえば、個々のAIが自らの利益のため「競争」する場合、相手を出し抜こうとして、相手のアライメントの失敗を突いた行動を取る可能性がある。逆に、AI同士が共通の目標のため「協調」する場合、一方が犯したアライメントの失敗を他のAIがより良い手段として模倣・強化してしまい、システム全体で逸脱を増幅させる恐れもある。
AI間の相互作用は、人間には追随不可能なほど超高速・超複雑なものである。一度、個々のAIで生じた小さなアライメントの失敗が増幅し始めると、問題は指数関数的に拡大され、制御不能な状態となってしまう。

AI暴走対策=「AIアライメント」
AI暴走=制御不能の事態に対し、現状ではどのような対策がとられているだろうか。
AI暴走は法整備が追いついていない新しい課題であり、世界中で対応が模索されている。対策は通常のリスク管理と同様、「リスクレベルの把握」と、「リスク緩和」の2段階で進められる。
「リスクレベルの把握」では、開発したAIがどの程度の危険性を持つかを客観的に評価する。例えば、AI開発企業Anthropic社では、AIの危険度を4段階の安全性レベル(ASL:AI Safety Levels)で評価している。2025年5月当時の最新のAIモデル「Claude Opus 4」は、生物・化学兵器などに関する知識の精度向上などを理由に、初めて危険度が上から2番目の「レベル3」と判定され、ガードレール等の厳格な安全措置を施したうえでリリースされた。
次に、把握されたリスクに対して「リスク緩和」を実施する。このリスク緩和の中核をなすのが、前述の「AIアライメント」を実装・改善して社会的に機能させる取り組みである。「技術対策」がAIアライメントの実装を、「ガバナンス」がAIアライメントの改善を担う。
AI暴走は法整備が追いついていない新しい課題であり、世界中で対応が模索されている。対策は通常のリスク管理と同様、「リスクレベルの把握」と、「リスク緩和」の2段階で進められる。
「リスクレベルの把握」では、開発したAIがどの程度の危険性を持つかを客観的に評価する。例えば、AI開発企業Anthropic社では、AIの危険度を4段階の安全性レベル(ASL:AI Safety Levels)で評価している。2025年5月当時の最新のAIモデル「Claude Opus 4」は、生物・化学兵器などに関する知識の精度向上などを理由に、初めて危険度が上から2番目の「レベル3」と判定され、ガードレール等の厳格な安全措置を施したうえでリリースされた。
次に、把握されたリスクに対して「リスク緩和」を実施する。このリスク緩和の中核をなすのが、前述の「AIアライメント」を実装・改善して社会的に機能させる取り組みである。「技術対策」がAIアライメントの実装を、「ガバナンス」がAIアライメントの改善を担う。

Anthropic Anthropic‘s Responsible Scaling Policy, September 19, 2023 https://www.anthropic.com/news/anthropics-responsible-scaling-policy
Anthropic Activating AI Safety Level 3 Protections, May 23, 2025 https://www.anthropic.com/news/activating-asl3-protections
Jiaming Ji, et al., AI Alignment: A Comprehensive Survey, October 30 2023 https://arxiv.org/abs/2310.19852
技術対策
技術開発はテック大手や安全性特化型スタートアップが中心となっており、基礎研究や理論研究、提言・普及啓発活動は政府系研究機関や非営利組織が担う構造となっている。
一般企業は、これらの組織が開発した安全技術(例:危険な回答を生成したり不要な動作をしたりさせないガードレール機能)を自社のAIサービスに導入して対策を講じている。
一般企業は、これらの組織が開発した安全技術(例:危険な回答を生成したり不要な動作をしたりさせないガードレール機能)を自社のAIサービスに導入して対策を講じている。
テック大手(GAFAM系企業(米国)、NVIDIA(米国)など):
- 高性能なだけのAIモデルは、一般企業には怖くて使ってもらうことができない。テック大手は、自社製品の安全性を担保し、顧客に安心して使ってもらうための技術を開発し提供している。
安全性特化型スタートアップ(Anthropic(米国)、SSI(=Safe Superintelligence、米国・イスラエル)など):
- AI暴走を大きな社会課題と捉え、看過しがたい使命感で、テック大手からスピンアウトした創業者などからなる組織が多い。専門的かつ先進的なAI安全技術を研究・開発している。汎用AI(AGI)の開発を志向できる組織は限定的であるため、安全技術に新ビジネス開拓を見出そうというモチベーションもあると考えられる。
政府系研究機関(AISI(=AI Safety/Security Institute、英国・日本など)、CAISI(=Center for AI Standards and Innovation、米国)など):
- 個々の民間企業では難しいAI安全対策への投資を国として引き受け、特定の企業に依存しない社会全体の利益のための基礎研究や開発を担う。AI安全技術に関する国際連携活動も担う。
非営利組織(FLI(=Future of Life Institute、米国)、CAIS(=Center for AI Safety、米国)など):
- AI安全研究を元々主導していた業界で存在感と権威をもつ重鎮を中心とした組織が多い。AIの負の側面の監視役としての役割を担う。
ガバナンス
各国政府がルールを定め、企業が自社のガバナンスの中で政府のルールを遵守する枠組みが基本となっている。AI暴走が懸念される超大規模モデルに特別な規制を設定する考え方は共通だが、アプローチは国によって異なっている。
法規制重視(欧州・中国):
欧州(EU):
市民の権利保護を重視する欧州は、世界初の包括的なAI規制である「AI法」を制定し、4段階のリスクレベルに応じた規制とともに「汎用目的AI(General-Purpose AI)」を定義して別途規制を設けている。さらに、学習時計算量などで定義される強力な汎用目的AIは「システミックリスクを伴う汎用目的AI」と定義し、追加で事前安全評価やインシデント報告などの義務を課している。中国:
生成AIに特化した規制である「生成AIサービス管理暫行弁法」を制定している。さらに、「世論属性または社会動員能力を備えた生成AI」に関しては、追加で事前安全評価やアルゴリズム届出などの義務を課している。
事業者の自主規制重視(米国・英国・日本):
米国:
バイデン政権時に欧州と同様のAIモデル規模に応じた規制を設けていたが、トランプ政権が撤廃した。現在は事業者の自主規制がメインとなっている。ただし、サイバー攻撃、生物・化学兵器開発など国家安全保障上の脅威に対する対策は継続されている。基本的にはイノベーションを重視しつつ、焦点を絞った対策を実施している。英国:
米国と同様の方針で、国家安全保障上の脅威に焦点を絞りつつ、イノベーションを重視して企業の自主規制を尊重する施策となっている。高性能な汎用型AIモデルを「フロンティアAI」(Frontier AI)と定義し、国の専門機関による事前安全評価等を課している。日本:
G7広島AIプロセスなどの国際的なルールと連携して、「最先端の基盤モデル及び生成AIシステムを含む、最も高度なAIシステム」を「高度なAIシステム」と定義し、事業者向けのガイドライン、指針・行動規範を規定している。イノベーションを重視した企業の自主規制を基本としつつ、2025年5月に成立した「AI法」では、重大なAI事故発生時の国の調査権限などを定めている。また、AISI(=AI Safety Institute)でも海外機関と連携して安全評価手法や基準の検討・推進が行われている。

https://dx.mri.co.jp/generative-ai/column/risks-03/(閲覧日2025年9月22日) を加筆修正して作成
AIガバナンスの世界的潮流:活用と競争の時代
いま世界のAIガバナンスは、リスク対策重視から「活用と競争力強化」重視へと急速に舵を切っている。AI暴走を防ぐための重要な安全性確保のアプローチであるAIアライメントも、国や地域の利害が絡み合う世界の現実から切り離して考えることはできない。
実現が現実味を帯びる汎用AI(AGI)のような強力なAIは、世界秩序に多大な影響を与えるゲームチェンジャーともなりうる技術である。米国と中国の二大AI大国のAI覇権争いが熾烈だ。米国は安全保障を軸に、AI向け先端半導体などの対中規制を同盟国と共に強化し、技術的な覇権を維持しようとしている。一方、中国は米国の規制に対抗すべく技術の自立化を急ぎ、独自のAIエコシステムを構築して自国の技術をグローバルサウスと呼ばれる新興国・途上国へ展開するなど、勢力圏の拡大を図っている。世界のAIガバナンスは、この二大AI大国の陣営形成にグローバルサウスの動向が絡み合い、複雑な様相を呈している。
実現が現実味を帯びる汎用AI(AGI)のような強力なAIは、世界秩序に多大な影響を与えるゲームチェンジャーともなりうる技術である。米国と中国の二大AI大国のAI覇権争いが熾烈だ。米国は安全保障を軸に、AI向け先端半導体などの対中規制を同盟国と共に強化し、技術的な覇権を維持しようとしている。一方、中国は米国の規制に対抗すべく技術の自立化を急ぎ、独自のAIエコシステムを構築して自国の技術をグローバルサウスと呼ばれる新興国・途上国へ展開するなど、勢力圏の拡大を図っている。世界のAIガバナンスは、この二大AI大国の陣営形成にグローバルサウスの動向が絡み合い、複雑な様相を呈している。

さらに、AIの技術革新と脅威の進展が、AI覇権争いの激化に拍車をかけている。
今回のコラムで紹介したように、AIが自らタスクを遂行する「エージェント化(AIの自律化)」が進むことで、長期的なリスクとしては人間の制御を離れるAI暴走リスクが現実味を帯びてきた。一方で、高性能なAIを誰もが安価に使える「コモディティ化(AIの民主化)」も進んでおり、短期的なリスクとしての意図せぬ「誤用」や犯罪・兵器転用など「悪用」のリスクが増加している。
世界はいま、激化する覇権争いと活用・規制のトレードオフ、相反する短期・長期のリスクも絡み合い、困難な状況下で汎用AI(AGI)時代を見据えたルール・秩序の確立を迫られている。
今回のコラムで紹介したように、AIが自らタスクを遂行する「エージェント化(AIの自律化)」が進むことで、長期的なリスクとしては人間の制御を離れるAI暴走リスクが現実味を帯びてきた。一方で、高性能なAIを誰もが安価に使える「コモディティ化(AIの民主化)」も進んでおり、短期的なリスクとしての意図せぬ「誤用」や犯罪・兵器転用など「悪用」のリスクが増加している。
世界はいま、激化する覇権争いと活用・規制のトレードオフ、相反する短期・長期のリスクも絡み合い、困難な状況下で汎用AI(AGI)時代を見据えたルール・秩序の確立を迫られている。

AIの暴走は怖いが、人間の暴走も怖い
汎用AI(AGI)の実現が現実味を帯びる中、我々が直面する課題は多岐にわたる。複雑な状況を乗り越えてAIの恩恵を最大限に享受するためには、AIに起因する課題だけでなく人間自身に起因する課題もクリアしていかなければならない。
まずは、人間社会が新たなルール・秩序を築けるかという国際協調の課題だ。
前述のように、汎用AI(AGI)のような強力な影響力を持つAIの登場が間近に迫る状況は、人間社会に新たなルール・秩序の構築を迫っているが、米中対立が象徴するように価値観の異なる国家間で実効性のある合意を形成するのは困難な作業だ。しかし、日本が主導したG7広島AIプロセスや、OECD諸国へと拡大した自主報告の枠組みなど、民主主義国を中心にリスク対策やルール作りの具体的な取り組みが進みつつある。各国が自国の利益を優先する中で、このような国際協調に向けた取り組みを地道に継続できれば、対立を乗り越えて人間社会共通の規範を確立できる可能性がある。
前述のように、汎用AI(AGI)のような強力な影響力を持つAIの登場が間近に迫る状況は、人間社会に新たなルール・秩序の構築を迫っているが、米中対立が象徴するように価値観の異なる国家間で実効性のある合意を形成するのは困難な作業だ。しかし、日本が主導したG7広島AIプロセスや、OECD諸国へと拡大した自主報告の枠組みなど、民主主義国を中心にリスク対策やルール作りの具体的な取り組みが進みつつある。各国が自国の利益を優先する中で、このような国際協調に向けた取り組みを地道に継続できれば、対立を乗り越えて人間社会共通の規範を確立できる可能性がある。
次に、今回のコラムで取り上げたAI暴走=制御不能リスクは防げるかという課題がある。これは基本的に技術的な課題であり、AIアライメントによって当面のリスク緩和が可能と考えられる。英国の提唱で始まったAIサミットや各国に設立されたAISIの国際連携など、AIの安全性確保に向けた技術協力体制も進んでいる。
また、AIの活用推進に向けた技術開発が、安全性の向上やリスク低減に寄与することも期待できる。たとえば、推論高度化のための技術はAIアライメントにも応用され、AIが高精度かつ安全な挙動がとれるように活用されている。
しかし、AIの技術進歩は人間の予想を遥かに超える。技術進歩が速すぎて、安全対策が追いつけなくなる可能性がある。人間側が、AIの安全性を軽視して競争一辺倒になるのではなく、安全対策にも時間的な猶予やリソースを確保できるかは、今後の課題となるだろう。
また、AIの活用推進に向けた技術開発が、安全性の向上やリスク低減に寄与することも期待できる。たとえば、推論高度化のための技術はAIアライメントにも応用され、AIが高精度かつ安全な挙動がとれるように活用されている。
しかし、AIの技術進歩は人間の予想を遥かに超える。技術進歩が速すぎて、安全対策が追いつけなくなる可能性がある。人間側が、AIの安全性を軽視して競争一辺倒になるのではなく、安全対策にも時間的な猶予やリソースを確保できるかは、今後の課題となるだろう。
AIの暴走以上に深刻な課題は、強力なAIを使って人間自身が自らの欲望や悪意を暴走させ、破局的なシナリオがもたらされる「人間の暴走」かもしれない。AIが自律的に暴走してしまうのは純粋に技術的な課題だが、人間の暴走は欲望や悪意、あるいは国家間の不信感などに根差すもので、対策は遥かに難しい。
特に懸念されるのは、特定の人間による強力なAIの独占である。たとえば、特定の権力者が汎用AI(AGI)を独占すれば、思想統制や大規模な監視、世論操作が容易になる。あるいは、自分にとって都合の良い動作をするように、強力なAIを設定することもできる。結果として民主主義が根底から脅かされることになるだろう。これはAIの失敗ではなく、人間自身が自らの欲望や悪意をAIによって増幅させることによってもたらされる脅威だ。
偶発的なリスクも懸念される。特に軍事においてはスピードが重視されるため、人間よりも迅速かつ大量の情報処理能力をもつAIへ権限移譲が進む可能性がある。「敵国より先に」という不信感と恐怖が不完全なAIへの権限移譲を加速させ、人間の判断を介さないままAIが行動を開始し、意図しない形で大規模な武力衝突へと発展してしまうリスクは計り知れない。
「人間の暴走」は、自らが作り出したAIという道具をいかに制御するかという技術的な問い以上に、強大な力を手にした自分たち自身を律することができるか、という倫理的な問いでもある。
特に懸念されるのは、特定の人間による強力なAIの独占である。たとえば、特定の権力者が汎用AI(AGI)を独占すれば、思想統制や大規模な監視、世論操作が容易になる。あるいは、自分にとって都合の良い動作をするように、強力なAIを設定することもできる。結果として民主主義が根底から脅かされることになるだろう。これはAIの失敗ではなく、人間自身が自らの欲望や悪意をAIによって増幅させることによってもたらされる脅威だ。
偶発的なリスクも懸念される。特に軍事においてはスピードが重視されるため、人間よりも迅速かつ大量の情報処理能力をもつAIへ権限移譲が進む可能性がある。「敵国より先に」という不信感と恐怖が不完全なAIへの権限移譲を加速させ、人間の判断を介さないままAIが行動を開始し、意図しない形で大規模な武力衝突へと発展してしまうリスクは計り知れない。
「人間の暴走」は、自らが作り出したAIという道具をいかに制御するかという技術的な問い以上に、強大な力を手にした自分たち自身を律することができるか、という倫理的な問いでもある。
日本がとるべき針路:官民を挙げた戦略的なリスク管理体制へのシフト
汎用AI(AGI)の実現が近いともいわれる中、日本は、強力な能力を持つAIとどのように向き合い、どのような針路を進むべきか。
米中がAI開発競争の先頭を走る中、日本はAI開発において米中との直接的な競争よりも、高性能な海外製AIモデルを最大限活用するユーザーとしての立場が基本となるであろう。基本的に、いま日本では米国系のAIモデルの活用が中心である。しかし、今後は安価で高性能な中国系のAIモデルも活用せざるを得ない状況が想定される。安全技術対策の中心を担うテック大手も米中に集中しており、日本企業は当面、それらの安全技術を自社サービスに導入する形が続く。個々の企業の自主的な判断で両陣営発の多くのAIモデルを使い分けて安全技術を自社サービスに導入していく状況は、各モデルにおけるAIアライメントの考え方や評価基準の違いから、リスク対応レベルの不統一につながりうる。リスク管理基準や法的枠組みへの対応も複雑化して高コストになるため、リスク対策自体が遅れがちとなり、完全な予防措置を講じることが困難になる恐れがある。
AIが社会に与える影響が拡大する中、日本が目指すべきは、問題が起きてから事後的に対処する受け身の姿勢ではなく、主体的かつ戦略的にリスクを管理する体制の構築である。特に、犯罪者によるAI悪用や他国からのAIサイバー攻撃への対処が急務であり、官民一体でリスク管理を強化する必要がある。
政府は、AI暴走が特に深刻な影響をもたらしうる金融・交通・エネルギーといった重要インフラや民主主義の根幹である選挙・言論空間など、国家の安定や安全保障に直結する領域では現在のガイドラインによる企業の自主対策に加え、リスクの大きさに応じた法制化も視野に入れるべきだ。たとえば、暴走した場合に人命や基本的人権に重大な影響を与えうるAIを「高リスクAI」と定義し、事業者に事前評価や人間の関与、AI生成物の明示などを義務付けることが考えられる。その際、重要インフラは一律に規制するのではなく、制御系と情報支援系を分けるなど用途やリスクレベルに応じて規制の強弱を設定するアプローチが有効である。
また、経済安全保障の観点からは、他国に依存せず自国で独立して稼働・制御可能なAIを「ソブリンAI」として開発・保有することも重要である。これにより、国際的なAIサプライチェーンにおいて、特定の国や企業のAIサービスが停止したり、悪意ある操作を受けたりした場合でも、日本の社会システムが停止してしまうリスクを軽減することができる。
また、経済安全保障の観点からは、他国に依存せず自国で独立して稼働・制御可能なAIを「ソブリンAI」として開発・保有することも重要である。これにより、国際的なAIサプライチェーンにおいて、特定の国や企業のAIサービスが停止したり、悪意ある操作を受けたりした場合でも、日本の社会システムが停止してしまうリスクを軽減することができる。
AI利用企業は、AIアライメントをはじめとしたテック大手等が開発した安全技術を自社サービスへ導入するだけでなく、AIが適切に動作しているかを継続的に監視し、不適切な行動が確認された際には人間の判断で介入可能な体制を整える必要がある。適切なアクセス権限管理やAIシステムの定期的な調整(キャリブレーション)実施も不可欠だ。一定の技術力を保有する企業は、オープンソースコミュニティへの貢献によって、技術力向上や自社の競争力向上も可能になる。
以下に、①事前対応~②運用中対応~③危機対応~④対応基盤整備の各段階に分けて、官民が取りうるAIエージェント~汎用AI(AGI)時代のリスク対策の例を示す。

未来の展望:汎用AI(AGI)社会の到来
AI暴走リスクを乗り越えた先には、どのような社会が待っているだろうか。
汎用AI(AGI)の登場によって、AIがAIを活用して人的作業を自動化する「AIエージェント」の時代から、AIが「人」や「ロボット」を働かせる時代へと移行する。これは、人の役割が「作業主体」から「意思決定・責任主体」へ大きく変わることを意味する。生産性は飛躍的に向上し、個人が巨大なプロジェクトを動かす時代が到来するかもしれない。
一方で、今回のコラムで論じたAI暴走のような技術的リスクに加え、社会的な「分断」といった政治的・経済的リスクが深刻化する懸念がある。AIがもたらす富の偏在や格差拡大に社会として対応できなければ、分断が進む世界情勢にさらなる悪影響を及ぼす可能性が高い。
汎用AI(AGI)の登場によって、AIがAIを活用して人的作業を自動化する「AIエージェント」の時代から、AIが「人」や「ロボット」を働かせる時代へと移行する。これは、人の役割が「作業主体」から「意思決定・責任主体」へ大きく変わることを意味する。生産性は飛躍的に向上し、個人が巨大なプロジェクトを動かす時代が到来するかもしれない。
一方で、今回のコラムで論じたAI暴走のような技術的リスクに加え、社会的な「分断」といった政治的・経済的リスクが深刻化する懸念がある。AIがもたらす富の偏在や格差拡大に社会として対応できなければ、分断が進む世界情勢にさらなる悪影響を及ぼす可能性が高い。
私たちに求められるのは、AIへの過度な依存は避けつつ、使うべきときは使うという姿勢だ。実際にAIを使ってみると、AIに出来ることや出来ないことが明確化され、AIのリスクを正確に理解できるようになる。冒頭で述べたように、いまはAIとうまく付き合っていくことが求められる時代だ。実際にAIを業務で試行したり導入したりすることで、AIで自動化できる業務と人間が担うべき業務とを明確に区別することができるようになり、自社ビジネスにおける適切なリスク管理体制の構築も可能となる。AI導入で生まれた時間やリソースを、新しい事業の創造や、より本質的な意思決定、従業員のスキルアップなどへ投資することで、人間本来の強みである判断力や創造性を磨くことこそが、真に豊かな未来を築くための第一歩となるだろう。

- MCP(Model Context Protocol)と呼ばれるプロトコルなど
- A2A(Agent2Agent)と呼ばれるプロトコルなど
- アライメントの失敗は、主に、人間の意図を目標(設計・仕様、プログラムなど)に落とし込む段階(外部アライメント)と、目標をAIの動作として具現化する段階(内部アライメント)、の2つの段階で生じるとされる。
- 「道具的収斂」「道具的収束」と呼ばれる。
- sakana.ai, “The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery”, August 13, 2024. https://sakana.ai/ai-scientist/(閲覧日2025年9月22日)
- Alexander Meinke, et al., Frontier Models are Capable of In-context Scheming, 6 Dec 2024, https://arxiv.org/abs/2412.04984(閲覧日2025年9月22日)
- 「報酬ハッキング」と呼ばれる。
- Alexander Bondarenko, Denis Volk, Dmitrii Volkov, Jeffrey Ladish, Demonstrating specification gaming in reasoning models, 18 Feb 2025, https://arxiv.org/abs/2502.13295(閲覧日2025年9月22日)
- 「策略・欺瞞」と呼ばれる。
- OpenAI, GPT-4 Technical Report, 27 Mar 2023, https://cdn.openai.com/papers/gpt-4.pdf(閲覧日2025年9月22日)
- Alexander Meinke, et al., Frontier Models are Capable of In-context Scheming, 6 Dec 2024, https://arxiv.org/abs/2412.04984(閲覧日2025年9月22日)
-
Gartner 2025年6月12日 Gartner、2030年までに「ガーディアン・エージェント」がエージェント型AI市場の10〜15%を占めるようになるとの見解を発表
https://www.gartner.co.jp/ja/newsroom/press-releases/pr-20250612-guardian-agents(閲覧日2025年9月22日) - 共有資源に対して複数の処理アクセスが同時に発生し、互いに資源の解放を待ち合ってしまい、処理が進行しなくなってしまう状態
- Anthropic Activating AI Safety Level 3 Protections, May 23, 2025 https://www.anthropic.com/news/activating-asl3-protections(閲覧日2025年9月22日)
- GAFAM系企業、NVIDIAのほか、大規模言語モデル・プラットフォームの開発企業など
- Anthropic(米国)、SSI(=Safe Superintelligence、米国・イスラエル)のほか、Conjecture(英国)、Guardrails AI、(米国、オープンソースPJ)など
- AISI(=AI Safety/Security Institute、各国)、CAISI(=Center for AI Standards and Innovation、米国)のほか、ARIA(=Advanced Research and Invention Agency、英国)、NIST(=National Institute of Standards and Technology、米国)、DARPA(=Defense Advanced Research Projects Agency、米国)、CnAISDA(=China AI Development and Safety Network、中国)など
- FLI(=Future of Life Institute、米国)、CAIS(=Center for AI Safety、米国)、MIRI(=Machine Intelligence Research Institute、米国)、Palisade Research(米国)、Epoch AI(米国)、Apollo Research(英国)、LawZero(カナダ)、ALIGN(=AI Alignment Network、日本)など
- 汎⽤⽬的AIモデルの影響力の大きい能⼒に特有のリスク。具体的には、その影響力の大きさにより、EU域内の市場に重⼤な影響を及ぼし、公衆衛⽣、安全、治安、基本的権利、または社会全体に対して実際に、または合理的に予⾒可能な悪影響を及ぼし、バリューチェーン全体にわたって⼤規模に伝播する可能性のあるリスクのこと。
- 正式名称は「人工知能関連技術の研究開発及び活用の推進に関する法律」
-
2024年は、前年比56.4%増のAIによるインシデントがあったとの報告がある。
HAI The AI Index 2025 Annual Report
https://hai-production.s3.amazonaws.com/files/hai_ai_index_report_2025.pdf(閲覧日2025年9月22日) - 広島AIプロセス https://www.soumu.go.jp/hiroshimaaiprocess/(閲覧日2025年9月22日)
- 総務省 令和7年2月7日 国際行動規範の「報告枠組み」運用開始(「広島AIプロセス」) https://www.soumu.go.jp/menu_news/s-news/01tsushin06_02000309.html(閲覧日2025年9月22日)
-
OpenAI社が開発し、同社の「oシリーズ」に導入されている「Deliberative Alignment」という技術がある。
Melody Y. Guan, et al., (OpenAI) Deliberative Alignment: Reasoning Enables Safer Language Models, 20 Dec 2024, https://arxiv.org/abs/2412.16339(閲覧日2025年9月22日)