初めて記録されたAIによるサイバー攻撃は2025年9月に発生した。中国政府が支援するグループがClaude Codeを操作し、金融機関、政府機関、化学メーカーなど世界約30の標的へ侵入した。これは理論上の演習ではない。Anthropicの開示資料によれば、攻撃者は自律型AIエージェントが人的介入をほとんど必要とせず大規模に兵器化可能であることを実証した。これはセキュリティチームが防御準備を整えるべき新たなカテゴリーの高度な持続的脅威(APT)である。セキュリティチームにとってメッセージは明確だ:エージェント型AIセキュリティは新たな懸念事項から運用上の必須要件へと移行した。
その影響は甚大だ。ガートナーは、2025年に5%未満だった企業アプリケーションの40%が、2026年末までにタスク特化型AIエージェントを統合すると予測している。しかしIT専門家の80%は、既にAIエージェントが許可されていない、あるいは予期せぬ行動を実行するのを目撃している。導入速度とセキュリティ成熟度の間のギャップは、攻撃対象領域を生み出し、敵対者が積極的に悪用している。
本ガイドは、セキュリティ専門家に対し、自律型AIの脅威に関する包括的な理解、評価のためのフレームワーク、および自律システムを保護するための実践的な実装ガイダンスを提供します。
エージェント型AIセキュリティとは、自律的に推論し、計画を立て、ツールや外部リソースを用いて多段階タスクを実行できるAIシステムを保護する分野である。 定義された境界内でクエリに応答する従来のAIモデルとは異なり 、エージェント型AIシステムはメール送信、コード実行、データベース変更、API呼び出しなど、現実世界に影響を及ぼす行動を取ることができる。 この自律性は、静的モデルやチャットボットの保護とは根本的に異なるセキュリティ上の課題を生み出す。
中核的なセキュリティ課題は、自律性と制御のバランスを取りつつ信頼境界を維持することにある。AIエージェントがデータベースへのアクセス、文書の作成、外部関係者へのメール送信を自律的に決定できる場合、従来の入力出力検証では不十分となる。セキュリティチームはツール、メモリ、オーケストレーションロジック、ID権限を含むエージェントのエコシステム全体を考慮しなければならない。
なぜ今これが重要なのか?急速な普及の勢いにより、ほとんどの企業は18か月以内に複数のAIエージェントを運用することになる。今、セキュリティ基盤を確立できない組織は、エージェントの導入が業務機能全体に拡大するにつれて、複合的なリスクに直面することになる。
従来型AIシステムとエージェント型AIシステムのセキュリティ確保における根本的な差異は、アーキテクチャと能力に起因する。
従来のAIセキュリティは、モデルの完全性、トレーニングデータの保護、推論時の攻撃に焦点を当てています。攻撃対象領域は比較的限定されています。入力が投入され、出力が生成されます。セキュリティ対策は、敵対的入力によるモデル予測の操作を防止し、トレーニングパイプラインが侵害されないことを保証することに重点を置いています。
エージェント型AIは攻撃対象領域を劇的に拡大する。これらのシステムは動的な道具使用、多段階推論連鎖、外部通信、セッションを跨いだ永続的記憶を備え、サイバーキルチェーンと同様のパターンを示す。攻撃者は基盤モデルを侵害する必要はない。エージェント生態系の任意の構成要素を操作することで、行動を悪意ある結果へと誘導できる。
表1:従来型AIとエージェント型AIのセキュリティ考慮事項の比較
セキュリティ上の影響は甚大である。従来のAIセキュリティ対策はモデル層に焦点を当てていたが、エージェント型システムにおいては必要ではあるものの不十分である。セキュリティチームは可視性と制御をエージェントアーキテクチャ全体に拡大しなければならない。
エージェント型AIシステムのアーキテクチャを理解することで、セキュリティ制御を適用すべき箇所が明らかになる。現代のAIエージェントは、運用上の攻撃対象領域を形成する4つの主要コンポーネントを統合している。
エージェントアーキテクチャコンポーネント:
各層は固有の脆弱性を有する。攻撃者は自らの目的達成に最も抵抗の少ない経路を提供するコンポーネントを標的とする。
セキュリティ研究者のサイモン・ウィリソンは、組み合わさると深刻なリスクを生み出す 3 つの要素を特定しました。マーティン・ファウラーは、このフレームワークについて技術的な分析で詳しく説明しています。このフレームワークを理解することで、セキュリティチームは、どのエージェントの展開に最も厳格な制御が必要かを特定しやすくなります。
致死的な三連打は次の3つで構成される:
3つの条件が同時に存在する場合、リスクは劇的に増大する。認証情報にアクセス可能なエージェントが、信頼できない電子メール添付ファイルを処理し、外部通信を送信できる場合、データ漏洩、認証情報の窃取、サプライチェーン侵害への経路が形成される。
すべてのエージェント展開がこれら3つの特性をすべて示すわけではありません。セキュリティチームは、各展開をこれらの基準に対して評価し、リスクプロファイルに見合った制御を実施すべきです。
攻撃者は、目的やエージェントの設定に応じて異なるレイヤーを悪用する。
モデル層攻撃:
ツールレイヤー攻撃:
メモリ層攻撃:
オーケストレーション層への攻撃:
AWSエージェント型AIセキュリティスコープマトリクスは、接続性(低または高)と自律性(低または高)という2つの次元に基づいてエージェント展開を分類するフレームワークを提供します。これにより4つのスコープが生成され、それぞれ異なるセキュリティ制御強度が必要となります。
AWS スコープマトリックス概要:
組織はスコープ1または2から展開を開始し、セキュリティ成熟度を実証した後にのみ上位のスコープへ移行すべきである。このスコープマトリクスは、OWASP、CoSAI、および複数の業界標準化団体によって基礎的な枠組みとして参照されている。
Anthropicが導入した新たなモデルコンテキストプロトコル(MCP)は、エージェントとツール間の通信のための標準化されたインターフェースを提供する。MCPは相互運用性を向上させる一方で、新たな攻撃ベクトルも生み出す。セキュリティチームはMCPサーバーの完全性を検証し、エージェントと接続ツール間の横方向移動を監視しなければならない。
2025年12月に発表された「エージェント型アプリケーション向けOWASPトップ10 2026」は、エージェント型AIシステム向けの業界標準脅威分類体系を確立する。100名以上のセキュリティ研究者の意見を取り入れ、Microsoft、NVIDIA、AWS、GoDaddyが参照するこのフレームワークは、エージェント型AIのセキュリティリスクに対する権威ある分類を提供する。
OWASP Top 10 for Agentic Applications の完全版では、以下のリスクカテゴリを特定しています:
表2: 2026年エージェント型アプリケーション向けOWASPトップ10
エージェント型AIシステムを運用するすべてのセキュリティチームは、これらのリスクカテゴリーに基づいて展開状況をマッピングし、適切な制御を実施すべきである。
プロンプト注入は、エージェントが操作された指示に基づいて行動できるため、特にエージェント環境において危険な脅威となる。
直接プロンプト注入は、ユーザー入力に悪意のある指示を直接挿入する手法である。攻撃者は、エージェントの本来の指示を新たな目的で上書きする入力を細工する可能性がある。
間接プロンプト注入はより陰険である。攻撃者はエージェントが取得するコンテンツに隠された指令を埋め込む。文書、メール、ウェブページ、データベースレコードはいずれも、エージェントが処理する際に発動するペイロードを運ぶ可能性がある。
二次プロンプトはマルチエージェントアーキテクチャを悪用する。ServiceNow Now Assistに対する既知の攻撃では、攻撃者は初期処理エージェントには無害に見えるデータフィールドに悪意のある指示を埋め込み、より高い特権を持つエージェントに処理が渡された際に作動させた。
OpenAIは2025年12月、プロンプトインジェクションはアーキテクチャレベルでは完全には解決されない可能性があると表明した。主要なAI開発者によるこの認識は、単一の制御手段への依存ではなく、多層的な防御の必要性を裏付けるものである。
78件の研究を対象としたメタ分析によると、適応型プロンプト注入攻撃の成功率は85%を超えることが判明した。強化された安全対策を備えて設計されたClaude Opus 4.5でさえ、Anthropicのテストによれば標的型攻撃に対して30%以上の成功率を示した。
実用的な意味合い:組織はモデルレベルの防御だけに頼ることはできない。実行時のガードレール、出力検証、振る舞い 不可欠な補完策となる。間接的なプロンプト注入はフィッシングを可能にする。 フィッシング 攻撃を大規模に実行し、一見正当なエージェントとのやり取りを通じて認証情報や機密データを抽出することが可能となる。
メモリポイズニングは、セッションをまたいで状態を維持するエージェント型システムに特有の新興脅威である。
攻撃メカニズムは、エージェントの永続メモリを虚偽または悪意のある情報で汚染することを含む。エージェントは保存されたコンテキストを権威あるものと扱うため、汚染されたメモリは繰り返し悪用を必要とせずに将来の決定に影響を与える。
ガリレオAIが2025年12月に発表した研究によると、初期のメモリ汚染から4時間以内に下流の意思決定の87%が損なわれることが実証された。この連鎖効果により、単一の汚染成功事例が数百に及ぶ後続のエージェント相互作用に影響を及ぼし得る。
2024年8月のSlack AIデータ流出インシデントは、メモリ汚染の実例を示した。研究者らは非公開Slackチャンネルに間接的なプロンプト注入指示を埋め込んだ。Slack AIアシスタントがこれらのチャンネルを処理すると、会話要約を攻撃者が制御する宛先へ流出させ始めた。これはAIによって可能となった内部者脅威の一形態であり、エージェントが知らぬ間にデータ窃盗の共犯者となる事例である。
メモリ汚染の軽減には、信頼ドメイン間のメモリ分離、保存されたコンテキストの完全性検証、およびメモリ侵害を示唆する検知 意思決定パター検知 するための振る舞い が必要である。
企業セキュリティにおいて最も急速に拡大している攻撃対象領域は、非人間的アイデンティティ(NHI)である。世界経済フォーラムの分析によれば、現代企業におけるNHIと人間のアイデンティティの比率は50:1に達し、2年以内に80:1に達すると予測されている。AIエージェントは新たなカテゴリーのNHIを構成し、専用のセキュリティガバナンスを必要とする。
業界データによると、AI関連のデータ侵害の97%は不十分なアクセス管理に起因している。2026年1月にCrowdStrikeがSGNLを7億4000万ドルで買収したことは、主要セキュリティベンダーがエージェント型AIを本質的にアイデンティティ問題と認識していることを示している。
従来の、呼び出し元ユーザーに基づいてエージェント権限を割り当てる手法は、過剰な特権の露出を引き起こす。研究タスクを実行するエージェントは、金融取引を処理するエージェントと同じアクセス権を必要としない。たとえ両方を同じユーザーが呼び出した場合でも同様である。
AIエージェントに対する効果的なNHIガバナンスには、それらを独立したライフサイクル管理を持つ第一級のアイデンティティとして扱うことが必要である。
アイデンティティのライフサイクル段階:
ガバナンス原則:
ゾンビエージェント問題は特に注意を要する。実験や概念実証のために起動されたエージェントは、プロジェクト終了後も稼働し続けることが多い。これらのエージェントはアクセス権を維持し、リソースを消費し、所有者や監視なしに攻撃対象領域を拡大する。正式な廃止手続きは、あらゆるエージェント展開ライフサイクルに組み込まれる必要がある。
エージェント型AIに対する脅威の状況は、理論的な段階から運用段階へと移行した。主要な企業向けプラットフォームにおいて、CVSSスコアが9.0を超える重大な脆弱性が発見され、そのうちのいくつかは実際に悪用されている。
表3:主体性を持つAIシステムにおける重大な脆弱性(2025-2026年)
ServiceNow ボディスナッチャー (CVE-2025-12420)
ServiceNowのAIプラットフォームで発見されたBodySnatcher脆弱性により、認証されていない攻撃者はメールアドレスのみを使用して管理者を含む任意のユーザーをなりすますことが可能でした。この攻撃手法はハードコードされた認証シークレットと緩いアカウント連携機能を利用し、MFA(多要素認証)とSSO(シングルサインオン)を迂回。攻撃者がAIワークフローを実行し、昇格された権限を持つバックドアアカウントを作成することを可能にしました。影響を受けるVirtual Agent APIバージョンを運用中の組織は、直ちにパッチ適用状況を確認すべきです。
Langflow脆弱性連鎖 (CVE-2025-34291)
人気のあるオープンソースAIエージェントフレームワーク「Langflow」には、完全なアカウント乗っ取りとリモートコード実行を可能にする重大な脆弱性連鎖が存在した。過度に寛容なCORS設定と、CSRF保護の欠如、安全でないコード検証エンドポイントが組み合わさり、攻撃経路を形成した。保存されたすべてのアクセストークンとAPIキーが漏洩し、統合された下流サービス全体にわたる連鎖的な侵害を可能にした。Flodricボットネットはこの脆弱性を積極的に悪用している。
Microsoft Copilot EchoLeak (CVE-2025-32711)
EchoLeak脆弱性は、AIエージェントに対する初の記録されたゼロクリック攻撃である。攻撃者はWord、PowerPoint、Outlook文書内の隠しテキスト、スピーカーノート、メタデータ、またはコメントに悪意のあるプロンプトを埋め込む。被害者がCopilotとやり取りする際、電子メール、OneDriveファイル、SharePointコンテンツ、Teamsメッセージを含む機密組織データが、ユーザーの認識や操作なしに画像URLパラメータ経由で流出する。
初のAIが指揮したサイバー攻撃
2025年9月、Anthropicは、人間の介入をほとんど受けずに実行された初の記録された大規模サイバー攻撃をAIエージェントが引き起こしたことを公表した。中国政府が支援するグループがClaude Codeを操作し、金融サービス、政府、重要インフラ分野の約30の組織を対象に偵察活動、標的選定、侵入試行を行った。
ファントムレイヴン・サプライチェーン攻撃
Koi Securityは、新たな「リモート動的依存関係」技術を用いて126の悪意あるnpmパッケージを発見した。これらのパッケージはレジストリ上では空で無害に見えたが、インストール後に攻撃者サーバーから悪意あるペイロードを取得した。スロープスクワッティングと呼ばれる手法でAIが生成した架空の名前を使用し、検出されるまでに86,000回以上ダウンロードされ、npmトークン、クラウド認証情報、SSHキーを漏洩させた。
これらのインシデントには、AIエージェントの攻撃ベクトルを特に考慮した強固なインシデント対応能力が求められます。セキュリティチームは、エージェント固有の調査手順を含めるようプレイブックを更新すべきです。
MITスローン・スリー・エッセンシャルズ・フレームワークは、主体的なAIセキュリティに対する体系的なアプローチを提供する。組織は包括的な脅威モデリング、継続的なセキュリティテスト、および連携して機能する実行時保護を実装しなければならない。
セキュリティ責任者のわずか21%が、AIエージェントの運用状況を完全に把握していると報告している。定期的なAIセキュリティテストを実施しているのは40%未満である。この可視性のギャップはリスクであると同時に、脅威検知能力の向上を通じて組織を差別化するセキュリティチームにとっての機会でもある。
制御をアーキテクチャの複雑さに適合させることで、正当な運用を妨げることなく、比例した保護を確保する。
スコープ1(低接続性、低自律性):
スコープ2(高接続性、低自律性):
スコープ3(低接続性、高自律性):
スコープ4(高接続性、高自律性):
階層化されたランタイム保護は、エージェント動作の各段階で脅威に対処します。
入力層の保護:
アクションレイヤー保護:
出力層の保護:
ベンダーソリューションには、NVIDIA NeMo Guardrails、F5、Straikerなどによる商用実装が含まれます。組織はまた、特定の要件に適したオープンソースフレームワークを使用してカスタムガードレールを構築することも可能です。
セキュリティチームは、エージェント型AIの導入を拡大する前に、これらの基盤となる制御を検証すべきである:
組織は、自律型AIのセキュリティ対策が規制要件や業界標準に準拠していることを確認しなければならない。2025年末には、自律型AIシステムに特化した主要なリリースにより、フレームワーク環境が大きく進化した。
表4:自律型AIの規制状況(2026年1月時点)
NISTサイバーAIプロファイル(2025年12月暫定草案)は、AIセキュリティの重点領域を「ガバナンス」「識別」「保護」「検知」「対応」「復旧」を含むサイバーセキュリティフレームワーク2.0の機能にマッピングする。非規制的ながら、この枠組みはAIセキュリティガバナンスの事実上の標準となることが期待されている。
NISTはさらに2026年1月、AIエージェントシステムのセキュリティ上の考慮事項に関する意見募集を公表した。具体的には、プロンプト注入、データポイズニング、および実世界のシステムに影響を与える目的の不整合に対処することを求めている。
主要な枠組みの参照:
組織は、特に運用上の具体性を提供するOWASPおよびMITREのガイダンスを含むこれらのフレームワークを組み込むよう、コンプライアンスプログラムを調整すべきである。
エージェント型AIセキュリティのベンダー環境は急速に拡大しており、既存プラットフォームと専門スタートアップ双方がソリューションを提供している。組織がエージェントセキュリティの本質がアイデンティティ脅威の検知と対応課題であると認識するにつれ、アイデンティティファーストのアプローチが特に勢いを増している。
主要なエンタープライズベンダー各社、具体的にはPalo Alto NetworksのCortex AgentiX、CrowdStrikeのFalcon Agentic Security、SentinelOneのSingularity AI SIEMが、専用のエージェント型AIセキュリティ機能を投入している。CrowdStrikeによるSGNLの7億4000万ドルでの買収は、特に人間、非人間アイデンティティ、自律型AIエージェントに対するリアルタイムアクセス制御を標的としている。
ブラウザレベルのセキュリティアーキテクチャも制御ポイントとして台頭している。Google Chromeは2025年12月、Geminiエージェント型ブラウジング向けに多層防御アーキテクチャを導入した。その特徴は、ユーザー整合性評価機能(提案された行動を検証する隔離されたAIモデル)、エージェント起源セット(タスク関連サイトへの相互作用制限)、および機微な行動に対する必須のユーザー確認である。
スタートアップエコシステムは多額の投資を集めている。WitnessAIはエージェント型AIガバナンスと可観測性技術で5800万ドルを調達した。Geordieはステルスモードから脱却し、AIエージェントセキュリティプラットフォームで650万ドルを獲得。Prophet Securityはエージェント型SOCプラットフォームで3000万ドルを調達した。
セキュリティ運用にエージェント型AIを導入した組織は、大幅な効率向上を報告している。業界データによれば、エージェント型AIが初期調査と情報補完を担当することでアラート選別時間が60%短縮され、人間のアナリストは複雑な意思決定に集中できるようになった。
Vectra 、Attack Signal Intelligenceの観点から主体性を持つAIセキュリティにアプローチする。企業ネットワーク全体にAIエージェントが普及するにつれ、それらが潜在的な攻撃ベクトルであると同時に保護を必要とする貴重な資産となることを認識している。
仮定と妥協の哲学は、エージェントシステムにも自然に適用される。組織は境界制御のみによるエージェントの悪用防止を試みるのではなく、異常なエージェント行動、不正なツール起動、およびID悪用パターンの迅速な検知に注力しなければならない。
これには、AIエージェントの通信、ツール呼び出し、アイデンティティ操作を含む現代的な攻撃対象領域全体にわたる統一された可観測性が求められる。ネットワーク検知と対応能力は、正当な自律操作と攻撃者による操作を区別できるよう進化しなければならない。ITDRソリューションは、非人間的なアイデンティティやエージェント固有の特権乱用パターンまでカバーするように拡張する必要がある。
目標はAIの導入を阻むことではなく、大規模な安全な展開を可能にすることであり、セキュリティチームが自律的な環境で自信を持って運用するために必要な可視性とシグナルの明確さを提供することである。
エージェント型AIセキュリティとは、自律的に計画・行動・意思決定を行うAIエージェントを保護する分野である。従来のAIセキュリティがモデルの完全性に焦点を当てていたのに対し、エージェント型AIセキュリティは、AIシステムが独立してツールにアクセスし、外部と通信し、現実世界に影響を及ぼす行動を取れるようになった際に生じる攻撃対象領域の拡大に対処する。この分野は、自律システムに特化した脅威モデリング、実行時保護メカニズム、AIエージェントのアイデンティティガバナンス、侵害や操作を示唆する可能性のある異常なエージェント行動の検知などを包含する。
2026年版エージェント型アプリケーション向けOWASPトップ10では、最も重大なリスクとしてエージェント目標乗っ取り(ASI01)、ツール悪用(ASI02)、IDと特権の悪用(ASI03)、メモリ汚染(ASI04)、サプライチェーン脆弱性(ASI06)を特定している。 これらのリスクは、エージェントが機密データへのアクセス権限と信頼できないコンテンツへの露出、外部通信能力という「致命的な三要素」を併せ持つ場合に増幅する。現実世界におけるこれらのリスクの悪用は、主要なエンタープライズプラットフォームにおいてCVSSスコア9.0を超える重大なCVEを生じさせている。
生成AIはテキスト、画像、コードなどのコンテンツを生成するが、通常はリクエスト-レスポンスパターンで動作し、各インタラクションには人間の監視が必要である。 自律型AIは自律的に多段階タスクを計画・実行し、外部システムとの対話にツールを活用し、セッションを跨いだ記憶を維持し、人間の介入なしに現実世界の行動を取ることが可能です。この自律性は、プロンプト注入を超えたセキュリティリスクを生み出し、ツールの悪用、目標の乗っ取り、身分の悪用などを含みます。生成AIのセキュリティが主に出力の安全性に焦点を当てるのに対し、自律型AIのセキュリティはエージェントのエコシステム全体に対処しなければなりません。
サイモン・ウィリソンによって造語され、マーティン・ファウラーによって詳述された「致命的な 3 つの要素」は、同時に存在すると深刻な複合リスクを生み出す 3 つの要素を表しています。 1 つ目は、認証情報、トークン、機密文書などの機密データへのアクセスです。2 つ目は、Web ページ、電子メール、ユーザー入力、外部 API からの信頼できないコンテンツへの露出です。3 つ目は、電子メール、メッセージング、API 呼び出しによる外部との通信能力です。セキュリティチームは、これらの基準に対して各エージェントのデプロイメントを評価し、その組み合わせによって生じるリスクプロファイルに見合った制御を実施する必要があります。
エージェント動作の各段階に対応する階層型ランタイムガードレールを実装する。入力層では、プロンプト注入分類器とコンテンツフィルタリングを展開し、悪意のある指示を検知 除去する。動作層では、ツール許可リスト、スコープ制約、レート制限を実装し、不正または過剰な動作を防止する。 出力層では、個人識別情報(PII)検出、機密データマスキング、応答検証を活用する。自律性の拡大前には可観測性ツールを導入し、不可逆的なアクションには人間の承認を維持するとともに、エージェント監視を既存のSOCワークフローに統合する。自律性の低い展開から開始し、セキュリティ成熟度を実証した後にのみ段階的に進める。
非人間アイデンティティ(NHI)とは、人間のユーザーではなくAIエージェント、サービスアカウント、ボット、自動化プロセスに割り当てられるデジタルアイデンティティである。現代の企業ではNHIと人間の比率が50:1に達しており、AIエージェントは専用のセキュリティガバナンスを必要とする急成長中のNHIカテゴリーを構成している。 効果的なガバナンスには、AIエージェントを単なるユーザー権限の継承や常時特権の維持ではなく、独立したライフサイクル管理、最小権限アクセス、ジャストインタイム認証、継続的な振る舞い 備えた第一級のアイデンティティとして扱うことが必要です。
主要なフレームワークには、2026年版エージェント型アプリケーション向けOWASPトップ10(2025年12月発表)、2025年10月に14の新規エージェント特化型手法を追加したMITRE ATLAS、2025年12月発表のNISTサイバーAIプロファイル草案、初のAIマネジメントシステム認証規格であるISO/IEC 42001:2023が含まれる。 規制要件には、高リスクAI分類に関するEU AI法、大規模AI開発者にリスク管理フレームワークを義務付ける2026年1月施行のカリフォルニア州法案SB 53、有害なAI出力を禁止するテキサス州TRAIGAが含まれる。組織は包括的なコンプライアンスプログラムの一環として、エージェント型AIセキュリティ管理策をこれらのフレームワークにマッピングすべきである。