初めて記録されたAIによるサイバー攻撃は2025年9月に発生した。中国政府が支援するグループがClaude Codeを操作し、金融機関、政府機関、化学メーカーなど世界約30の標的へ侵入した。これは理論上の演習ではない。Anthropicの開示資料によれば、攻撃者は自律型AIエージェントが人的介入をほとんど必要とせず大規模に兵器化可能であることを実証した。これはセキュリティチームが防御準備を整えるべき新たなカテゴリーの高度な持続的脅威(APT)である。セキュリティチームにとってメッセージは明確だ:エージェント型AIセキュリティは新たな懸念事項から運用上の必須要件へと移行した。
その影響は甚大だ。ガートナーは、2025年に5%未満だった企業アプリケーションの40%が、2026年末までにタスク特化型AIエージェントを統合すると予測している。しかしIT専門家の80%は、既にAIエージェントが許可されていない、あるいは予期せぬ行動を実行するのを目撃している。導入速度とセキュリティ成熟度の間のギャップは、攻撃対象領域を生み出し、敵対者が積極的に悪用している。
本ガイドは、セキュリティ専門家に対し、自律型AIの脅威に関する包括的な理解、評価のためのフレームワーク、および自律システムを保護するための実践的な実装ガイダンスを提供します。
エージェント型AIセキュリティとは、自律的に推論し、計画を立て、ツールや外部リソースを用いて多段階タスクを実行できるAIシステムを保護する分野である。 定義された境界内でクエリに応答する従来のAIモデルとは異なり 、エージェント型AIシステムはメール送信、コード実行、データベース変更、API呼び出しなど、現実世界に影響を及ぼす行動を取ることができる。 この自律性は、静的モデルやチャットボットの保護とは根本的に異なるセキュリティ上の課題を生み出す。
中核的なセキュリティ課題は、自律性と制御のバランスを取りつつ信頼境界を維持することにある。AIエージェントがデータベースへのアクセス、文書の作成、外部関係者へのメール送信を自律的に決定できる場合、従来の入力出力検証では不十分となる。セキュリティチームはツール、メモリ、オーケストレーションロジック、ID権限を含むエージェントのエコシステム全体を考慮しなければならない。
なぜ今これが重要なのか?急速な普及の勢いにより、ほとんどの企業は18か月以内に複数のAIエージェントを運用することになる。今、セキュリティ基盤を確立できない組織は、エージェントの導入が業務機能全体に拡大するにつれて、複合的なリスクに直面することになる。
従来型AIシステムとエージェント型AIシステムのセキュリティ確保における根本的な差異は、アーキテクチャと能力に起因する。
従来のAIセキュリティは、モデルの完全性、トレーニングデータの保護、推論時の攻撃に焦点を当てています。攻撃対象領域は比較的限定されています。入力が投入され、出力が生成されます。セキュリティ対策は、敵対的入力によるモデル予測の操作を防止し、トレーニングパイプラインが侵害されないことを保証することに重点を置いています。
エージェント型AIは攻撃対象領域を劇的に拡大する。これらのシステムは動的な道具使用、多段階推論連鎖、外部通信、セッションを跨いだ永続的記憶を備え、サイバーキルチェーンと同様のパターンを示す。攻撃者は基盤モデルを侵害する必要はない。エージェント生態系の任意の構成要素を操作することで、行動を悪意ある結果へと誘導できる。
表1:従来型AIとエージェント型AIのセキュリティ考慮事項の比較
セキュリティ上の影響は甚大である。従来のAIセキュリティ対策はモデル層に焦点を当てていたが、エージェント型システムにおいては必要ではあるものの不十分である。セキュリティチームは可視性と制御をエージェントアーキテクチャ全体に拡大しなければならない。
エージェント型AIシステムのアーキテクチャを理解することで、セキュリティ制御を適用すべき箇所が明らかになる。現代のAIエージェントは、運用上の攻撃対象領域を形成する4つの主要コンポーネントを統合している。
エージェントアーキテクチャコンポーネント:
各層は固有の脆弱性を有する。攻撃者は自らの目的達成に最も抵抗の少ない経路を提供するコンポーネントを標的とする。
セキュリティ研究者のサイモン・ウィリソンは、組み合わさると深刻なリスクを生み出す 3 つの要素を特定しました。マーティン・ファウラーは、このフレームワークについて技術的な分析で詳しく説明しています。このフレームワークを理解することで、セキュリティチームは、どのエージェントの展開に最も厳格な制御が必要かを特定しやすくなります。
致死的な三連打は次の3つで構成される:
3つの条件が同時に存在する場合、リスクは劇的に増大する。認証情報にアクセス可能なエージェントが、信頼できない電子メール添付ファイルを処理し、外部通信を送信できる場合、データ漏洩、認証情報の窃取、サプライチェーン侵害への経路が形成される。
すべてのエージェント展開がこれら3つの特性をすべて示すわけではありません。セキュリティチームは、各展開をこれらの基準に対して評価し、リスクプロファイルに見合った制御を実施すべきです。
攻撃者は、目的やエージェントの設定に応じて異なるレイヤーを悪用する。
モデル層攻撃:
ツールレイヤー攻撃:
メモリ層攻撃:
オーケストレーション層への攻撃:
AWSエージェント型AIセキュリティスコープマトリクスは、接続性(低または高)と自律性(低または高)という2つの次元に基づいてエージェント展開を分類するフレームワークを提供します。これにより4つのスコープが生成され、それぞれ異なるセキュリティ制御強度が必要となります。
AWS スコープマトリックス概要:
組織はスコープ1または2から展開を開始し、セキュリティ成熟度を実証した後にのみ上位のスコープへ移行すべきである。このスコープマトリクスは、OWASP、CoSAI、および複数の業界標準化団体によって基礎的な枠組みとして参照されている。
Anthropicが導入した新たなモデルコンテキストプロトコル(MCP)は、エージェントとツール間の通信のための標準化されたインターフェースを提供する。MCPは相互運用性を向上させる一方で、新たな攻撃ベクトルも生み出す。セキュリティチームはMCPサーバーの完全性を検証し、エージェントと接続ツール間の横方向移動を監視しなければならない。
2025年12月に発表された「エージェント型アプリケーション向けOWASPトップ10 2026」は、エージェント型AIシステム向けの業界標準脅威分類体系を確立する。100名以上のセキュリティ研究者の意見を取り入れ、Microsoft、NVIDIA、AWS、GoDaddyが参照するこのフレームワークは、エージェント型AIのセキュリティリスクに対する権威ある分類を提供する。
OWASP Top 10 for Agentic Applications の完全版では、以下のリスクカテゴリを特定しています:
表2: 2026年エージェント型アプリケーション向けOWASPトップ10
エージェント型AIシステムを運用するすべてのセキュリティチームは、これらのリスクカテゴリーに基づいて展開状況をマッピングし、適切な制御を実施すべきである。
Prompt injection represents a particularly dangerous threat in agentic contexts because agents can act on manipulated instructions.
Direct prompt injection involves malicious instructions inserted directly into user input. An attacker might craft input that overrides the agent's original instructions with new objectives.
Indirect prompt injection is more insidious. Attackers embed hidden instructions in content the agent fetches. Documents, emails, web pages, and database records can all carry payloads that activate when the agent processes them.
二次プロンプトはマルチエージェントアーキテクチャを悪用する。ServiceNow Now Assistに対する既知の攻撃では、攻撃者は初期処理エージェントには無害に見えるデータフィールドに悪意のある指示を埋め込み、より高い特権を持つエージェントに処理が渡された際に作動させた。
OpenAI stated in December 2025 that prompt injection may never be fully solved at the architectural level. This acknowledgment from a leading AI developer reinforces the need for layered defenses rather than reliance on any single control.
A meta-analysis of 78 studies found that adaptive prompt injection attacks achieve success rates exceeding 85%. Even Claude Opus 4.5, designed with enhanced safety measures, showed 30%+ success rates against targeted attacks according to Anthropic testing.
The practical implication: organizations cannot rely on model-level defenses alone. Runtime guardrails, output validation, and behavioral monitoring are essential complements. Indirect prompt injection can enable phishing attacks at scale, extracting credentials or sensitive data through seemingly legitimate agent interactions.
メモリポイズニングは、セッションをまたいで状態を維持するエージェント型システムに特有の新興脅威である。
攻撃メカニズムは、エージェントの永続メモリを虚偽または悪意のある情報で汚染することを含む。エージェントは保存されたコンテキストを権威あるものと扱うため、汚染されたメモリは繰り返し悪用を必要とせずに将来の決定に影響を与える。
ガリレオAIが2025年12月に発表した研究によると、初期のメモリ汚染から4時間以内に下流の意思決定の87%が損なわれることが実証された。この連鎖効果により、単一の汚染成功事例が数百に及ぶ後続のエージェント相互作用に影響を及ぼし得る。
The August 2024 Slack AI data exfiltration incident demonstrated memory poisoning in practice. Researchers embedded indirect prompt injection instructions in private Slack channels. When the Slack AI assistant processed these channels, it began exfiltrating conversation summaries to attacker-controlled destinations. This represents a form of insider threat enabled by AI, where the agent becomes an unwitting accomplice to data theft.
メモリ汚染を軽減するには、信頼ドメイン間のメモリ分離、保存されたコンテキストの整合性検証、およびメモリ侵害を示唆する異常な決定パターンを検知するための動作監視が必要です。
企業セキュリティにおいて最も急速に拡大している攻撃対象領域は、非人間的アイデンティティ(NHI)である。世界経済フォーラムの分析によれば、現代企業におけるNHIと人間のアイデンティティの比率は50:1に達し、2年以内に80:1に達すると予測されている。AIエージェントは新たなカテゴリーのNHIを構成し、専用のセキュリティガバナンスを必要とする。
業界データによると、AI関連のデータ侵害の97%は不十分なアクセス管理に起因している。2026年1月にCrowdStrikeがSGNLを7億4000万ドルで買収したことは、主要セキュリティベンダーがエージェント型AIを本質的にアイデンティティ問題と認識していることを示している。
従来の、呼び出し元ユーザーに基づいてエージェント権限を割り当てる手法は、過剰な特権の露出を引き起こす。研究タスクを実行するエージェントは、金融取引を処理するエージェントと同じアクセス権を必要としない。たとえ両方を同じユーザーが呼び出した場合でも同様である。
AIエージェントに対する効果的なNHIガバナンスには、それらを独立したライフサイクル管理を持つ第一級のアイデンティティとして扱うことが必要である。
アイデンティティのライフサイクル段階:
ガバナンス原則:
ゾンビエージェント問題は特に注意を要する。実験や概念実証のために起動されたエージェントは、プロジェクト終了後も稼働し続けることが多い。これらのエージェントはアクセス権を維持し、リソースを消費し、所有者や監視なしに攻撃対象領域を拡大する。正式な廃止手続きは、あらゆるエージェント展開ライフサイクルに組み込まれる必要がある。
エージェント型AIに対する脅威の状況は、理論的な段階から運用段階へと移行した。主要な企業向けプラットフォームにおいて、CVSSスコアが9.0を超える重大な脆弱性が発見され、そのうちのいくつかは実際に悪用されている。
表3:主体性を持つAIシステムにおける重大な脆弱性(2025-2026年)
ServiceNow ボディスナッチャー (CVE-2025-12420)
ServiceNowのAIプラットフォームで発見されたBodySnatcher脆弱性により、認証されていない攻撃者はメールアドレスのみを使用して管理者を含む任意のユーザーをなりすますことが可能でした。この攻撃手法はハードコードされた認証シークレットと緩いアカウント連携機能を利用し、MFA(多要素認証)とSSO(シングルサインオン)を迂回。攻撃者がAIワークフローを実行し、昇格された権限を持つバックドアアカウントを作成することを可能にしました。影響を受けるVirtual Agent APIバージョンを運用中の組織は、直ちにパッチ適用状況を確認すべきです。
Langflow脆弱性連鎖 (CVE-2025-34291)
人気のあるオープンソースAIエージェントフレームワーク「Langflow」には、完全なアカウント乗っ取りとリモートコード実行を可能にする重大な脆弱性連鎖が存在した。過度に寛容なCORS設定と、CSRF保護の欠如、安全でないコード検証エンドポイントが組み合わさり、攻撃経路を形成した。保存されたすべてのアクセストークンとAPIキーが漏洩し、統合された下流サービス全体にわたる連鎖的な侵害を可能にした。Flodricボットネットはこの脆弱性を積極的に悪用している。
Microsoft Copilot EchoLeak (CVE-2025-32711)
EchoLeak脆弱性は、AIエージェントに対する初の記録されたゼロクリック攻撃である。攻撃者はWord、PowerPoint、Outlook文書内の隠しテキスト、スピーカーノート、メタデータ、またはコメントに悪意のあるプロンプトを埋め込む。被害者がCopilotとやり取りする際、電子メール、OneDriveファイル、SharePointコンテンツ、Teamsメッセージを含む機密組織データが、ユーザーの認識や操作なしに画像URLパラメータ経由で流出する。
初のAIが指揮したサイバー攻撃
2025年9月、Anthropicは、人間の介入をほとんど受けずに実行された初の記録された大規模サイバー攻撃をAIエージェントが引き起こしたことを公表した。中国政府が支援するグループがClaude Codeを操作し、金融サービス、政府、重要インフラ分野の約30の組織を対象に偵察活動、標的選定、侵入試行を行った。
ファントムレイヴン・サプライチェーン攻撃
Koi Securityは、新たな「リモート動的依存関係」技術を用いて126の悪意あるnpmパッケージを発見した。これらのパッケージはレジストリ上では空で無害に見えたが、インストール後に攻撃者サーバーから悪意あるペイロードを取得した。スロープスクワッティングと呼ばれる手法でAIが生成した架空の名前を使用し、検知されるまでに86,000回以上ダウンロードされ、npmトークン、クラウド認証情報、SSHキーを漏洩させた。
これらのインシデントには、AIエージェントの攻撃ベクトルを特に考慮した強固なインシデント対応能力が求められます。セキュリティチームは、エージェント固有の調査手順を含めるようプレイブックを更新すべきです。
MITスローン・スリー・エッセンシャルズ・フレームワークは、主体的なAIセキュリティに対する体系的なアプローチを提供する。組織は包括的な脅威モデリング、継続的なセキュリティテスト、および連携して機能する実行時保護を実装しなければならない。
セキュリティ責任者のわずか21%が、AIエージェントの運用状況を完全に把握していると報告している。定期的なAIセキュリティテストを実施しているのは40%未満である。この可視性のギャップはリスクであると同時に、脅威検知能力の向上を通じて組織を差別化するセキュリティチームにとっての機会でもある。
制御をアーキテクチャの複雑さに適合させることで、正当な運用を妨げることなく、比例した保護を確保する。
スコープ1(低接続性、低自律性):
スコープ2(高接続性、低自律性):
スコープ3(低接続性、高自律性):
スコープ4(高接続性、高自律性):
階層化されたランタイム保護は、エージェント動作の各段階で脅威に対処します。
入力層の保護:
アクションレイヤー保護:
出力層の保護:
ベンダーソリューションには、NVIDIA NeMo Guardrails、F5、Straikerなどによる商用実装が含まれます。組織はまた、特定の要件に適したオープンソースフレームワークを使用してカスタムガードレールを構築することも可能です。
セキュリティチームは、エージェント型AIの導入を拡大する前に、これらの基盤となる制御を検証すべきである:
組織は、自律型AIのセキュリティ対策が規制要件や業界標準に準拠していることを確認しなければならない。2025年末には、自律型AIシステムに特化した主要なリリースにより、フレームワーク環境が大きく進化した。
表4:自律型AIの規制状況(2026年1月時点)
NISTサイバーAIプロファイル(2025年12月暫定草案)は、AIセキュリティの重点領域を「ガバナンス」「識別」「保護」「検知」「対応」「復旧」を含むサイバーセキュリティフレームワーク2.0の機能にマッピングする。非規制的ながら、この枠組みはAIセキュリティガバナンスの事実上の標準となることが期待されている。
NIST additionally published a Request for Information in January 2026 seeking input on security considerations for AI agent systems, specifically addressing prompt injection, data poisoning, and misaligned objectives impacting real-world systems.
主要な枠組みの参照:
組織は、特に運用上の具体性を提供するOWASPおよびMITREのガイダンスを含むこれらのフレームワークを組み込むよう、コンプライアンスプログラムを調整すべきである。
エージェント型AIセキュリティのベンダー環境は急速に拡大しており、既存プラットフォームと専門スタートアップ双方がソリューションを提供している。組織がエージェントセキュリティの本質がアイデンティティ脅威の検知と対応課題であると認識するにつれ、アイデンティティファーストのアプローチが特に勢いを増している。
主要なエンタープライズベンダー各社、具体的にはPalo Alto NetworksのCortex AgentiX、CrowdStrikeのFalcon Agentic Security、SentinelOneのSingularity AI SIEMが、専用のエージェント型AIセキュリティ機能を投入している。CrowdStrikeによるSGNLの7億4000万ドルでの買収は、特に人間、非人間アイデンティティ、自律型AIエージェントに対するリアルタイムアクセス制御を標的としている。
ブラウザレベルのセキュリティアーキテクチャも制御ポイントとして台頭している。Google Chromeは2025年12月、Geminiエージェント型ブラウジング向けに多層防御アーキテクチャを導入した。その特徴は、ユーザー整合性評価機能(提案された行動を検証する隔離されたAIモデル)、エージェント起源セット(タスク関連サイトへの相互作用制限)、および機微な行動に対する必須のユーザー確認である。
スタートアップエコシステムは多額の投資を集めている。WitnessAIはエージェント型AIガバナンスと可観測性技術で5800万ドルを調達した。Geordieはステルスモードから脱却し、AIエージェントセキュリティプラットフォームで650万ドルを獲得。Prophet Securityはエージェント型SOCプラットフォームで3000万ドルを調達した。
セキュリティ運用にエージェント型AIを導入した組織は、大幅な効率向上を報告している。業界データによれば、エージェント型AIが初期調査と情報補完を担当することでアラート選別時間が60%短縮され、人間のアナリストは複雑な意思決定に集中できるようになった。
Vectra AI は、AI エージェントが企業ネットワーク全体に増加すると、潜在的な攻撃ベクトルになるだけでなく、保護を必要とする貴重な資産にもなることを認識し、Attack Signal Intelligence の観点からエージェント AI セキュリティに取り組んでいます。
仮定と妥協の哲学は、エージェントシステムにも自然に適用される。組織は境界制御のみによるエージェントの悪用防止を試みるのではなく、異常なエージェント行動、不正なツール起動、およびID悪用パターンの迅速な検知に注力しなければならない。
これには、AIエージェントの通信、ツール呼び出し、アイデンティティ操作を含む現代的な攻撃対象領域全体にわたる統一された可観測性が求められる。ネットワーク検知と対応能力は、正当な自律操作と攻撃者による操作を区別できるよう進化しなければならない。ITDRソリューションは、非人間的なアイデンティティやエージェント固有の特権乱用パターンまでカバーするように拡張する必要がある。
目標はAIの導入を阻むことではなく、大規模な安全な展開を可能にすることであり、セキュリティチームが自律的な環境で自信を持って運用するために必要な可視性とシグナルの明確さを提供することである。
エージェント型AIセキュリティとは、自律的に計画・行動・意思決定を行うAIエージェントを保護する分野である。従来のAIセキュリティがモデルの完全性に焦点を当てていたのに対し、エージェント型AIセキュリティは、AIシステムが独立してツールにアクセスし、外部と通信し、現実世界に影響を及ぼす行動を取れるようになった際に生じる攻撃対象領域の拡大に対処する。この分野は、自律システムに特化した脅威モデリング、実行時保護メカニズム、AIエージェントのアイデンティティガバナンス、侵害や操作を示唆する可能性のある異常なエージェント行動の検知などを包含する。
2026年版エージェント型アプリケーション向けOWASPトップ10では、最も重大なリスクとしてエージェント目標乗っ取り(ASI01)、ツール悪用(ASI02)、IDと特権の悪用(ASI03)、メモリ汚染(ASI04)、サプライチェーン脆弱性(ASI06)を特定している。 これらのリスクは、エージェントが機密データへのアクセス権限と信頼できないコンテンツへの露出、外部通信能力という「致命的な三要素」を併せ持つ場合に増幅する。現実世界におけるこれらのリスクの悪用は、主要なエンタープライズプラットフォームにおいてCVSSスコア9.0を超える重大なCVEを生じさせている。
Generative AI creates content including text, images, and code but typically operates in a request-response pattern with human oversight for each interaction. Agentic AI autonomously plans and executes multi-step tasks, uses tools to interact with external systems, maintains memory across sessions, and can take real-world actions without human intervention. This autonomy creates security risks that extend beyond prompt injection to include tool misuse, goal hijacking, and identity abuse. While generative AI security focuses primarily on output safety, agentic AI security must address the entire agent ecosystem.
サイモン・ウィリソンによって造語され、マーティン・ファウラーによって詳述された「致命的な 3 つの要素」は、同時に存在すると深刻な複合リスクを生み出す 3 つの要素を表しています。 1 つ目は、認証情報、トークン、機密文書などの機密データへのアクセスです。2 つ目は、Web ページ、電子メール、ユーザー入力、外部 API からの信頼できないコンテンツへの露出です。3 つ目は、電子メール、メッセージング、API 呼び出しによる外部との通信能力です。セキュリティチームは、これらの基準に対して各エージェントのデプロイメントを評価し、その組み合わせによって生じるリスクプロファイルに見合った制御を実施する必要があります。
エージェントの動作の各段階に対応する階層化されたランタイムガードレールを実装します。入力層では、プロンプトインジェクション分類器とコンテンツフィルタリングを導入し、悪意のある命令を検出して削除します。アクション層では、ツールのホワイトリスト、スコープ制約、レート制限を実装し、不正なアクションや過剰なアクションを防止します。出力層では、PII検知、機密データのマスキング、レスポンス検証を使用します。自律性を拡張する前に可観測性ツールを導入し、取り消し不可能なアクションについては人間の承認を維持し、エージェント監視を既存のSOCワークフローに統合します。自律性の低い導入から開始し、セキュリティの成熟度を実証してから段階的に進めます。
非人間アイデンティティ(NHI)とは、人間のユーザーではなくAIエージェント、サービスアカウント、ボット、自動化プロセスに割り当てられるデジタルアイデンティティである。現代の企業ではNHIと人間の比率が50:1に達しており、AIエージェントは専用のセキュリティガバナンスを必要とする急成長中のNHIカテゴリーを構成している。 効果的なガバナンスには、AIエージェントを単なるユーザー権限の継承や常時特権の維持ではなく、独立したライフサイクル管理、最小権限アクセス、ジャストインタイム認証、継続的な振る舞い 備えた第一級のアイデンティティとして扱うことが必要です。
主要なフレームワークには、2026年版エージェント型アプリケーション向けOWASPトップ10(2025年12月発表)、2025年10月に14の新規エージェント特化型手法を追加したMITRE ATLAS、2025年12月発表のNISTサイバーAIプロファイル草案、初のAIマネジメントシステム認証規格であるISO/IEC 42001:2023が含まれる。 規制要件には、高リスクAI分類に関するEU AI法、大規模AI開発者にリスク管理フレームワークを義務付ける2026年1月施行のカリフォルニア州法案SB 53、有害なAI出力を禁止するテキサス州TRAIGAが含まれる。組織は包括的なコンプライアンスプログラムの一環として、エージェント型AIセキュリティ管理策をこれらのフレームワークにマッピングすべきである。