能動型AIセキュリティの解説:自律システムを新たな脅威から守る

主な洞察

  • 自律型AIセキュリティは、自律的に計画・行動可能な自律システムを保護し、従来のAI/MLセキュリティ手法を超えた制御を必要とする
  • OWASP Top 10 for Agentic Applications 2026は、目標乗っ取り、ツールの悪用、アイデンティティの悪用を含む業界標準の脅威カテゴリを確立する
  • 致命的な三重脅威フレームワークは、複合リスクが発生する状況を特定する:機密データへのアクセス権限と、信頼できないコンテンツへの露出、外部通信能力が組み合わさった状態
  • 現代の企業では非人間アイデンティティ(NHI)が人間アイデンティティを50対1の比率で上回っており、AIエージェントのアイデンティティガバナンスがセキュリティ上の最重要課題となっている
  • 2025年から2026年にかけて、ServiceNow、Langflow、Microsoft Copilotプラットフォームにおいて、実世界の攻撃によりCVSSスコア9.3~9.4の重大なCVEが発生した。

初めて記録されたAIによるサイバー攻撃は2025年9月に発生した。中国政府が支援するグループがClaude Codeを操作し、金融機関、政府機関、化学メーカーなど世界約30の標的へ侵入した。これは理論上の演習ではない。Anthropicの開示資料によれば、攻撃者は自律型AIエージェントが人的介入をほとんど必要とせず大規模に兵器化可能であることを実証した。これはセキュリティチームが防御準備を整えるべき新たなカテゴリーの高度な持続的脅威(APT)である。セキュリティチームにとってメッセージは明確だ:エージェント型AIセキュリティは新たな懸念事項から運用上の必須要件へと移行した。

その影響は甚大だ。ガートナーは、2025年に5%未満だった企業アプリケーションの40%が、2026年末までにタスク特化型AIエージェントを統合すると予測している。しかしIT専門家の80%は、既にAIエージェントが許可されていない、あるいは予期せぬ行動を実行するのを目撃している。導入速度とセキュリティ成熟度の間のギャップは、攻撃対象領域を生み出し、敵対者が積極的に悪用している。

本ガイドは、セキュリティ専門家に対し、自律型AIの脅威に関する包括的な理解、評価のためのフレームワーク、および自律システムを保護するための実践的な実装ガイダンスを提供します。

エージェント型AIセキュリティとは何か?

エージェント型AIセキュリティとは、自律的に推論し、計画を立て、ツールや外部リソースを用いて多段階タスクを実行できるAIシステムを保護する分野である。 定義された境界内でクエリに応答する従来のAIモデルとは異なり 、エージェント型AIシステムはメール送信、コード実行、データベース変更、API呼び出しなど、現実世界に影響を及ぼす行動を取ることができるこの自律性は、静的モデルやチャットボットの保護とは根本的に異なるセキュリティ上の課題を生み出す。

中核的なセキュリティ課題は、自律性と制御のバランスを取りつつ信頼境界を維持することにある。AIエージェントがデータベースへのアクセス、文書の作成、外部関係者へのメール送信を自律的に決定できる場合、従来の入力出力検証では不十分となる。セキュリティチームはツール、メモリ、オーケストレーションロジック、ID権限を含むエージェントのエコシステム全体を考慮しなければならない。

なぜ今これが重要なのか?急速な普及の勢いにより、ほとんどの企業は18か月以内に複数のAIエージェントを運用することになる。今、セキュリティ基盤を確立できない組織は、エージェントの導入が業務機能全体に拡大するにつれて、複合的なリスクに直面することになる。

主体性を持つAI対従来のAIセキュリティ

従来型AIシステムとエージェント型AIシステムのセキュリティ確保における根本的な差異は、アーキテクチャと能力に起因する。

従来のAIセキュリティは、モデルの完全性、トレーニングデータの保護、推論時の攻撃に焦点を当てています。攻撃対象領域は比較的限定されています。入力が投入され、出力が生成されます。セキュリティ対策は、敵対的入力によるモデル予測の操作を防止し、トレーニングパイプラインが侵害されないことを保証することに重点を置いています。

エージェント型AIは攻撃対象領域を劇的に拡大する。これらのシステムは動的な道具使用、多段階推論連鎖、外部通信、セッションを跨いだ永続的記憶を備え、サイバーキルチェーンと同様のパターンを示す。攻撃者は基盤モデルを侵害する必要はない。エージェント生態系の任意の構成要素を操作することで、行動を悪意ある結果へと誘導できる。

表1:従来型AIとエージェント型AIのセキュリティ考慮事項の比較

アスペクト 従来型AI 能動的AI
アタックサーフェス モデルの入力と出力 エージェントのエコシステム全体(ツール、メモリ、オーケストレーションを含む)
主要な脅威 敵対的入力、モデルポイズニング 目標乗っ取り、ツール悪用、ID不正利用、メモリ汚染
管理境界 明確に定義された入出力 動的、文脈依存
アイデンティティモデル 呼び出し元アプリケーションから継承 独立した非人間的なアイデンティティガバナンスが必要
現実世界への影響 予測誤差 業務上の結果を伴う不正行為
監視手法 入力/出力の検証 振る舞い 、意思決定記録、行動制約

セキュリティ上の影響は甚大である。従来のAIセキュリティ対策はモデル層に焦点を当てていたが、エージェント型システムにおいては必要ではあるものの不十分である。セキュリティチームは可視性と制御をエージェントアーキテクチャ全体に拡大しなければならない。

能動的AIの仕組み(セキュリティの文脈)

エージェント型AIシステムのアーキテクチャを理解することで、セキュリティ制御を適用すべき箇所が明らかになる。現代のAIエージェントは、運用上の攻撃対象領域を形成する4つの主要コンポーネントを統合している。

エージェントアーキテクチャコンポーネント:

  • モデル層:推論能力を提供する基盤となる大規模言語モデル
  • ツール層:エージェントが呼び出せる外部機能(API、データベース、ファイルシステム、通信チャネルを含む)
  • メモリ層:エージェントがセッション間でコンテキストを維持できる永続ストレージ
  • オーケストレーション層:計画、ツール選択、実行フローを調整するロジック

各層は固有の脆弱性を有する。攻撃者は自らの目的達成に最も抵抗の少ない経路を提供するコンポーネントを標的とする。

致死的な三連発の解説

セキュリティ研究者のサイモン・ウィリソンは、組み合わさると深刻なリスクを生み出す 3 つの要素を特定しました。マーティン・ファウラーは、このフレームワークについて技術的な分析で詳しく説明しています。このフレームワークを理解することで、セキュリティチームは、どのエージェントの展開に最も厳格な制御が必要かを特定しやすくなります。

致死的な三連打は次の3つで構成される:

  1. 認証情報、トークン、ソースコード、内部文書、個人を特定できる情報など、データ漏洩を可能にする機密データへのアクセス
  2. 信頼できないコンテンツへの接触(公開リポジトリ、ウェブページ、ユーザー入力、メール添付ファイル、サードパーティ統合などからのソースを含む)
  3. 外部との通信機能(メール送信、API呼び出し、チャットメッセージ、ファイル操作、コード実行を含む)

3つの条件が同時に存在する場合、リスクは劇的に増大する。認証情報にアクセス可能なエージェントが、信頼できない電子メール添付ファイルを処理し、外部通信を送信できる場合、データ漏洩、認証情報の窃取、サプライチェーン侵害への経路が形成される。

すべてのエージェント展開がこれら3つの特性をすべて示すわけではありません。セキュリティチームは、各展開をこれらの基準に対して評価し、リスクプロファイルに見合った制御を実施すべきです。

エージェントのアーキテクチャと攻撃対象領域の理解

攻撃者は、目的やエージェントの設定に応じて異なるレイヤーを悪用する。

モデル層攻撃:

  • プロンプトインジェクションはエージェント入力に悪意のある指示を挿入する
  • 脱獄は、基盤となるモデルに組み込まれた安全制約を無効化しようとする試みであり、従来のエクスプロイト技術と同様である

ツールレイヤー攻撃:

  • ツールの誤用とは、正当なツールの機能を不正な目的に悪用することである
  • スコープ拡張はエージェントを騙し、意図された境界を超えてツールを使用させる
  • リソースの乱用は、反復的な呼び出しによってコンピューティングリソースやAPIクォータを消費します

メモリ層攻撃:

  • メモリ汚染は永続的なコンテキストを改竄し、将来の決定に影響を与える
  • 文脈操作は、エージェントが権威ある情報として扱う虚偽の情報を挿入する

オーケストレーション層への攻撃:

  • 目標乗っ取りは、攻撃者が制御する結果に向けてエージェントの目的を転向させる
  • ワークフロー操作は承認ステップをバイパスするため実行ロジックを変更する

AWSエージェント型AIセキュリティスコープマトリクスは、接続性(低または高)と自律性(低または高)という2つの次元に基づいてエージェント展開を分類するフレームワークを提供します。これにより4つのスコープが生成され、それぞれ異なるセキュリティ制御強度が必要となります。

AWS スコープマトリックス概要:

  • スコープ1(低接続性、低自律性):ツールへのアクセスが制限された内部エージェント。基本的な入力検証とログ記録で十分。
  • スコープ2(高接続性、低自律性):人間の監視下にあるインターネット接続エージェント。ネットワークセグメンテーションとAPIセキュリティが必要。
  • スコープ3(低接続性、高自律性):独立した行動能力が顕著な内部エージェント。行動制約と承認ワークフローが必要。
  • スコープ4(高接続性、高自律性):インターネット接続型自律エージェント。完全なzero trust 継続的監視が必要。

組織はスコープ1または2から展開を開始し、セキュリティ成熟度を実証した後にのみ上位のスコープへ移行すべきである。このスコープマトリクスは、OWASP、CoSAI、および複数の業界標準化団体によって基礎的な枠組みとして参照されている。

Anthropicが導入した新たなモデルコンテキストプロトコル(MCP)は、エージェントとツール間の通信のための標準化されたインターフェースを提供する。MCPは相互運用性を向上させる一方で、新たな攻撃ベクトルも生み出す。セキュリティチームはMCPサーバーの完全性を検証し、エージェントと接続ツール間の横方向移動を監視しなければならない。

主体性を持つAIのセキュリティリスクと脅威

2025年12月に発表された「エージェント型アプリケーション向けOWASPトップ10 2026」は、エージェント型AIシステム向けの業界標準脅威分類体系を確立する。100名以上のセキュリティ研究者の意見を取り入れ、Microsoft、NVIDIA、AWS、GoDaddyが参照するこのフレームワークは、エージェント型AIのセキュリティリスクに対する権威ある分類を提供する。

OWASP エージェント型アプリケーション向けトップ10 2026年版

OWASP Top 10 for Agentic Applications の完全版では、以下のリスクカテゴリを特定しています:

  1. ASI01 - エージェント目標乗っ取り:攻撃者はプロンプト注入やコンテキスト操作を通じてエージェントの目的を操作し、正当な機能を悪意のある結果へと転向させる
  2. ASI02 - ツールの悪用:エージェントツールを不正な行動に利用すること。これには意図された範囲を超えた権限拡大が含まれる。
  3. ASI03 - 身元と特権の悪用:過剰な権限の悪用、認証情報の窃取、または人間の身元のなりすましによるアカウント乗っ取り
  4. ASI04 - メモリ汚染:永続エージェントのメモリを改ざんし、将来の決定に影響を与え、連鎖的な障害を引き起こす
  5. ASI05 - データ漏洩:エージェント出力、ログ、またはツール応答を通じた機密データの不正取得
  6. ASI06 - サプライチェーンの脆弱性:ツール、プラグイン、MCPサーバー、依存関係を含むエージェントコンポーネントの侵害(広範なサプライチェーン攻撃の一環として)
  7. ASI07 - 入力操作:エージェントの解析または処理ロジックを悪用する巧妙な入力
  8. ASI08 - 過剰な自律性:適切な監督なしに適切な範囲を超えたエージェントの行動
  9. ASI09 - 不十分な記録と監視:悪意あるエージェントの行動検出を妨げる不十分な可観測性
  10. ASI10 - 不安全な出力処理:下流の攻撃を可能にしたり、セキュリティ制御をバイパスしたりするエージェントの出力

表2: 2026年エージェント型アプリケーション向けOWASPトップ10

リスクID 名前 影響レベル 一次的緩和
ASI01 エージェント目標乗っ取り クリティカル 入力検証、目的制約
ASI02 工具の誤用 高い ツールの許可リスト、スコープ制約
ASI03 アイデンティティと特権の乱用 クリティカル 最小権限、継続的認証
ASI04 メモリ汚染 高い メモリ分離、完全性検証
ASI05 データ漏洩 高い 出力フィルタリング、DLP統合
ASI06 サプライチェーンの脆弱性 クリティカル ベンダー検証、SBOM
ASI07 入力操作 ミディアム 入力のサニタイズ、型検証
ASI08 過剰な自律性 ミディアム 段階的自律化、承認ワークフロー
ASI09 ログ記録が不十分 ミディアム 包括的なテレメトリ、監査証跡
ASI10 安全でない出力処理 ミディアム 出力検証、下流工程の管理

エージェント型AIシステムを運用するすべてのセキュリティチームは、これらのリスクカテゴリーに基づいて展開状況をマッピングし、適切な制御を実施すべきである。

エージェントシステムにおけるプロンプト注入

プロンプト注入は、エージェントが操作された指示に基づいて行動できるため、特にエージェント環境において危険な脅威となる。

直接プロンプト注入は、ユーザー入力に悪意のある指示を直接挿入する手法である。攻撃者は、エージェントの本来の指示を新たな目的で上書きする入力を細工する可能性がある。

間接プロンプト注入はより陰険である。攻撃者はエージェントが取得するコンテンツに隠された指令を埋め込む。文書、メール、ウェブページ、データベースレコードはいずれも、エージェントが処理する際に発動するペイロードを運ぶ可能性がある。

二次プロンプトはマルチエージェントアーキテクチャを悪用する。ServiceNow Now Assistに対する既知の攻撃では、攻撃者は初期処理エージェントには無害に見えるデータフィールドに悪意のある指示を埋め込み、より高い特権を持つエージェントに処理が渡された際に作動させた。

OpenAIは2025年12月、プロンプトインジェクションはアーキテクチャレベルでは完全には解決されない可能性があると表明した。主要なAI開発者によるこの認識は、単一の制御手段への依存ではなく、多層的な防御の必要性を裏付けるものである。

78件の研究を対象としたメタ分析によると、適応型プロンプト注入攻撃の成功率は85%を超えることが判明した。強化された安全対策を備えて設計されたClaude Opus 4.5でさえ、Anthropicのテストによれば標的型攻撃に対して30%以上の成功率を示した。

実用的な意味合い:組織はモデルレベルの防御だけに頼ることはできない。実行時のガードレール、出力検証、振る舞い 不可欠な補完策となる。間接的なプロンプト注入はフィッシングを可能にする。 フィッシング 攻撃を大規模に実行し、一見正当なエージェントとのやり取りを通じて認証情報や機密データを抽出することが可能となる。

メモリ改ざん攻撃

メモリポイズニングは、セッションをまたいで状態を維持するエージェント型システムに特有の新興脅威である。

攻撃メカニズムは、エージェントの永続メモリを虚偽または悪意のある情報で汚染することを含む。エージェントは保存されたコンテキストを権威あるものと扱うため、汚染されたメモリは繰り返し悪用を必要とせずに将来の決定に影響を与える。

ガリレオAIが2025年12月に発表した研究によると、初期のメモリ汚染から4時間以内に下流の意思決定の87%が損なわれることが実証された。この連鎖効果により、単一の汚染成功事例が数百に及ぶ後続のエージェント相互作用に影響を及ぼし得る。

2024年8月のSlack AIデータ流出インシデントは、メモリ汚染の実例を示した。研究者らは非公開Slackチャンネルに間接的なプロンプト注入指示を埋め込んだ。Slack AIアシスタントがこれらのチャンネルを処理すると、会話要約を攻撃者が制御する宛先へ流出させ始めた。これはAIによって可能となった内部者脅威の一形態であり、エージェントが知らぬ間にデータ窃盗の共犯者となる事例である。

メモリ汚染の軽減には、信頼ドメイン間のメモリ分離、保存されたコンテキストの完全性検証、およびメモリ侵害を示唆する検知 意思決定パター検知 するための振る舞い が必要である。

非人間アイデンティティ管理(AIエージェント向け)

企業セキュリティにおいて最も急速に拡大している攻撃対象領域は、非人間的アイデンティティ(NHI)である。世界経済フォーラムの分析によれば、現代企業におけるNHIと人間のアイデンティティの比率は50:1に達し、2年以内に80:1に達すると予測されている。AIエージェントは新たなカテゴリーのNHIを構成し、専用のセキュリティガバナンスを必要とする。

業界データによると、AI関連のデータ侵害の97%は不十分なアクセス管理に起因している。2026年1月にCrowdStrikeがSGNLを7億4000万ドルで買収したことは、主要セキュリティベンダーがエージェント型AIを本質的にアイデンティティ問題と認識していることを示している。

従来の、呼び出し元ユーザーに基づいてエージェント権限を割り当てる手法は、過剰な特権の露出を引き起こす。研究タスクを実行するエージェントは、金融取引を処理するエージェントと同じアクセス権を必要としない。たとえ両方を同じユーザーが呼び出した場合でも同様である。

AIエージェント向けアイデンティティガバナンスの実装

AIエージェントに対する効果的なNHIガバナンスには、それらを独立したライフサイクル管理を持つ第一級のアイデンティティとして扱うことが必要である。

アイデンティティのライフサイクル段階:

  • 作成:明確な所有権、目的文書、および初期許可範囲をもってエージェントの身元を確立する
  • 管理:定期的なアクセス権限の見直し、変化する要件に基づく権限調整
  • 監視: アイデンティティ分析による 振る舞い を通じた検知
  • 廃止:監視なしに活動し続けるゾンビエージェントを防ぐための正式な終了手順

ガバナンス原則:

  • 最小権限の原則:特定のタスクに必要な最小限の権限のみを付与し、包括的なアクセス権限を与えない
  • ジャストインタイムアクセス:時間制限付きの権限で、自動的に失効し、継続的なアクセスには再認証が必要となる
  • 継続的認可:エージェントが操作全体を通じて許可された範囲内に留まっていることをリアルタイムで検証する
  • 独立したガバナンス:エージェント権限とユーザー権限を分離し、明確なレビューサイクルを設ける

ゾンビエージェント問題は特に注意を要する。実験や概念実証のために起動されたエージェントは、プロジェクト終了後も稼働し続けることが多い。これらのエージェントはアクセス権を維持し、リソースを消費し、所有者や監視なしに攻撃対象領域を拡大する。正式な廃止手続きは、あらゆるエージェント展開ライフサイクルに組み込まれる必要がある。

実世界の事例とケーススタディ

エージェント型AIに対する脅威の状況は、理論的な段階から運用段階へと移行した。主要な企業向けプラットフォームにおいて、CVSSスコアが9.0を超える重大な脆弱性が発見され、そのうちのいくつかは実際に悪用されている。

自律型AIシステムにおける重大なCVE(2025-2026年)

表3:主体性を持つAIシステムにおける重大な脆弱性(2025-2026年)

CVE ID 製品 CVSS 発見日 エクスプロイトの状態
CVE-2025-12420 ServiceNow AIプラットフォーム 9.3 2026年1月 パッチ適用済み
CVE-2025-34291 ラングフロー 9.4 2025年4月 アクティブな悪用(フロドリック・ボットネット)
CVE-2025-32711 Microsoft 365 Copilot 9.3 2025年6月 積極的な悪用

ServiceNow ボディスナッチャー (CVE-2025-12420)

ServiceNowのAIプラットフォームで発見されたBodySnatcher脆弱性により、認証されていない攻撃者はメールアドレスのみを使用して管理者を含む任意のユーザーをなりすますことが可能でした。この攻撃手法はハードコードされた認証シークレットと緩いアカウント連携機能を利用し、MFA(多要素認証)とSSO(シングルサインオン)を迂回。攻撃者がAIワークフローを実行し、昇格された権限を持つバックドアアカウントを作成することを可能にしました。影響を受けるVirtual Agent APIバージョンを運用中の組織は、直ちにパッチ適用状況を確認すべきです。

Langflow脆弱性連鎖 (CVE-2025-34291)

人気のあるオープンソースAIエージェントフレームワーク「Langflow」には、完全なアカウント乗っ取りとリモートコード実行を可能にする重大な脆弱性連鎖が存在した。過度に寛容なCORS設定と、CSRF保護の欠如、安全でないコード検証エンドポイントが組み合わさり、攻撃経路を形成した。保存されたすべてのアクセストークンとAPIキーが漏洩し、統合された下流サービス全体にわたる連鎖的な侵害を可能にした。Flodricボットネットはこの脆弱性を積極的に悪用している

Microsoft Copilot EchoLeak (CVE-2025-32711)

EchoLeak脆弱性は、AIエージェントに対する初の記録されたゼロクリック攻撃である。攻撃者はWord、PowerPoint、Outlook文書内の隠しテキスト、スピーカーノート、メタデータ、またはコメントに悪意のあるプロンプトを埋め込む。被害者がCopilotとやり取りする際、電子メール、OneDriveファイル、SharePointコンテンツ、Teamsメッセージを含む機密組織データが、ユーザーの認識や操作なしに画像URLパラメータ経由で流出する。

初のAIが指揮したサイバー攻撃

2025年9月、Anthropicは、人間の介入をほとんど受けずに実行された初の記録された大規模サイバー攻撃をAIエージェントが引き起こしたことを公表した。中国政府が支援するグループがClaude Codeを操作し、金融サービス、政府、重要インフラ分野の約30の組織を対象に偵察活動、標的選定、侵入試行を行った。

ファントムレイヴン・サプライチェーン攻撃

Koi Securityは、新たな「リモート動的依存関係」技術を用いて126の悪意あるnpmパッケージを発見した。これらのパッケージはレジストリ上では空で無害に見えたが、インストール後に攻撃者サーバーから悪意あるペイロードを取得した。スロープスクワッティングと呼ばれる手法でAIが生成した架空の名前を使用し、検出されるまでに86,000回以上ダウンロードされ、npmトークン、クラウド認証情報、SSHキーを漏洩させた。

これらのインシデントには、AIエージェントの攻撃ベクトルを特に考慮した強固なインシデント対応能力が求められます。セキュリティチームは、エージェント固有の調査手順を含めるようプレイブックを更新すべきです。

能動的AIの脅威の検知と防止

MITスローン・スリー・エッセンシャルズ・フレームワークは、主体的なAIセキュリティに対する体系的なアプローチを提供する。組織は包括的な脅威モデリング、継続的なセキュリティテスト、および連携して機能する実行時保護を実装しなければならない。

セキュリティ責任者のわずか21%が、AIエージェントの運用状況を完全に把握していると報告している。定期的なAIセキュリティテストを実施しているのは40%未満である。この可視性のギャップはリスクであると同時に、脅威検知能力の向上を通じて組織を差別化するセキュリティチームにとっての機会でもある。

AWSスコープマトリクスによるセキュリティ制御範囲

制御をアーキテクチャの複雑さに適合させることで、正当な運用を妨げることなく、比例した保護を確保する。

スコープ1(低接続性、低自律性):

  • 基本的な入力検証とサニタイズ
  • エージェントの動作に関する包括的なログ記録
  • 機密データの出力フィルタリング

スコープ2(高接続性、低自律性):

  • エージェントインフラを分離するネットワークセグメンテーション
  • APIセキュリティ(認証およびレート制限を含む)
  • 外部通信の監視

スコープ3(低接続性、高自律性):

  • エージェントの能力を定義された境界に制限する動作制約
  • 影響力の大きい決定事項に対する承認ワークフロー
  • 獲得した信頼に基づく段階的自律性の拡大

スコープ4(高接続性、高自律性):

  • 完全な zero trust アーキテクチャ(Ciscoによる詳細説明
  • 振る舞い による継続的監視
  • 不可逆的な行動に対するヒューマン・オン・ザ・ループ
  • SIEMプラットフォームとのリアルタイム脅威検知統合

実行時ガードレールの実装

階層化されたランタイム保護は、エージェント動作の各段階で脅威に対処します。

入力層の保護:

  • 検知 命令パターンを検知するプロンプト注入分類器
  • 入力から潜在的に危険なペイロードを除去するコンテンツフィルタリング
  • スキーマ検証により、入力が期待される形式に合致することを保証する

アクションレイヤー保護:

  • ツールの許可リストによるエージェントの機能セット制限
  • 定義された境界を超えて能力を拡張することを妨げる範囲の制約
  • リソースの乱用を防ぐためのレート制限(過度なツール呼び出しによる)

出力層の保護:

  • 個人識別情報の検出とマスキングによる不注意なデータ漏洩の防止
  • 機密データのフィルタリング:出力から認証情報とトークンを除去する
  • 応答検証により、出力結果が下流の攻撃を可能にしないことを保証する

ベンダーソリューションには、NVIDIA NeMo Guardrails、F5、Straikerなどによる商用実装が含まれます。組織はまた、特定の要件に適したオープンソースフレームワークを使用してカスタムガードレールを構築することも可能です。

ベストプラクティスチェックリスト

セキュリティチームは、エージェント型AIの導入を拡大する前に、これらの基盤となる制御を検証すべきである:

  • AIエージェントを独立したガバナンスとライフサイクル管理を備えた第一級のアイデンティティとして扱う
  • 最小権限と最小自律性の原則を実装し、必要な権限のみを付与する
  • 自律性を拡大する前に監視ツールを導入し、攻撃者の行動パターンを可視化できるようにする
  • 不可逆的または影響の大きい行動については、人間の承認を維持する
  • AI専用のソフトウェア部品表(SBOM)を作成し、すべてのエージェントコンポーネントを文書化する
  • エージェント間通信zero trust 適用し、あらゆる相互作用を検証する
  • エージェント固有の攻撃パターンに焦点を当てた脅威ハンティング演習を定期的に実施する
  • エージェント監視を既存のSOC自動化ワークフローに統合する
  • 引退するエージェントに対する正式な廃止手続きを確立する

コンプライアンスと枠組み

組織は、自律型AIのセキュリティ対策が規制要件や業界標準に準拠していることを確認しなければならない。2025年末には、自律型AIシステムに特化した主要なリリースにより、フレームワーク環境が大きく進化した。

規制環境(2026年1月)

表4:自律型AIの規制状況(2026年1月時点)

規制 発効日 主要要件 関連性
カリフォルニア州上院法案53号(TFAIA) 2026年1月1日 大規模AI開発者向けリスク管理枠組み;15日以内のインシデント報告義務;内部告発者保護 高い
テキサス・トライガ 2026年1月1日 有害なAI出力を禁止(サイバー攻撃の助長を含む);規制サンドボックス ミディアム
コロラド州人工知能法(SB 24-205) 2026年6月30日 高リスクAIシステムの影響評価 ミディアム
NISTサイバーAIプロファイル 草案(2025年12月) 人工知能セキュリティガバナンスのためのCSF 2.0マッピング 高い

NISTサイバーAIプロファイル(2025年12月暫定草案)は、AIセキュリティの重点領域を「ガバナンス」「識別」「保護」「検知」「対応」「復旧」を含むサイバーセキュリティフレームワーク2.0の機能にマッピングする。非規制的ながら、この枠組みはAIセキュリティガバナンスの事実上の標準となることが期待されている。

NISTはさらに2026年1月、AIエージェントシステムのセキュリティ上の考慮事項に関する意見募集を公表した。具体的には、プロンプト注入、データポイズニング、および実世界のシステムに影響を与える目的の不整合に対処することを求めている。

主要な枠組みの参照:

  • OWASP Top 10 for Agentic Applications 2026: 業界標準の脅威分類体系
  • MITRE ATLAS:2025年10月にエージェント特化型の新手法14件を追加し、AIシステム固有の手法66件とサブ手法46件を網羅。Vectra ATLAS対応状況も参照のこと。
  • MITRE ATT&CK: 攻撃者がAIエージェントを活用するにつれ、基礎的な攻撃者のTTP(戦術・技術・手順)の重要性が増している
  • ISO/IEC 42001:2023:初のAIマネジメントシステム認証規格

組織は、特に運用上の具体性を提供するOWASPおよびMITREのガイダンスを含むこれらのフレームワークを組み込むよう、コンプライアンスプログラムを調整すべきである。

主体性を持つAIのセキュリティに対する現代的アプローチ

エージェント型AIセキュリティのベンダー環境は急速に拡大しており、既存プラットフォームと専門スタートアップ双方がソリューションを提供している。組織がエージェントセキュリティの本質がアイデンティティ脅威の検知と対応課題であると認識するにつれ、アイデンティティファーストのアプローチが特に勢いを増している。

主要なエンタープライズベンダー各社、具体的にはPalo Alto NetworksのCortex AgentiX、CrowdStrikeのFalcon Agentic Security、SentinelOneのSingularity AI SIEMが、専用のエージェント型AIセキュリティ機能を投入している。CrowdStrikeによるSGNLの7億4000万ドルでの買収は、特に人間、非人間アイデンティティ、自律型AIエージェントに対するリアルタイムアクセス制御を標的としている。

ブラウザレベルのセキュリティアーキテクチャも制御ポイントとして台頭している。Google Chromeは2025年12月、Geminiエージェント型ブラウジング向けに多層防御アーキテクチャを導入した。その特徴は、ユーザー整合性評価機能(提案された行動を検証する隔離されたAIモデル)、エージェント起源セット(タスク関連サイトへの相互作用制限)、および機微な行動に対する必須のユーザー確認である。

スタートアップエコシステムは多額の投資を集めている。WitnessAIはエージェント型AIガバナンスと可観測性技術で5800万ドルを調達した。Geordieはステルスモードから脱却し、AIエージェントセキュリティプラットフォームで650万ドルを獲得。Prophet Securityはエージェント型SOCプラットフォームで3000万ドルを調達した。

セキュリティ運用にエージェント型AIを導入した組織は、大幅な効率向上を報告している。業界データによれば、エージェント型AIが初期調査と情報補完を担当することでアラート選別時間が60%短縮され、人間のアナリストは複雑な意思決定に集中できるようになった。

Vectra 主体性を持つAIセキュリティをどう考えるか

Vectra 、Attack Signal Intelligenceの観点から主体性を持つAIセキュリティにアプローチする。企業ネットワーク全体にAIエージェントが普及するにつれ、それらが潜在的な攻撃ベクトルであると同時に保護を必要とする貴重な資産となることを認識している。

仮定と妥協の哲学は、エージェントシステムにも自然に適用される。組織は境界制御のみによるエージェントの悪用防止を試みるのではなく、異常なエージェント行動、不正なツール起動、およびID悪用パターンの迅速な検知に注力しなければならない。

これには、AIエージェントの通信、ツール呼び出し、アイデンティティ操作を含む現代的な攻撃対象領域全体にわたる統一された可観測性が求められる。ネットワーク検知と対応能力は、正当な自律操作と攻撃者による操作を区別できるよう進化しなければならない。ITDRソリューションは、非人間的なアイデンティティやエージェント固有の特権乱用パターンまでカバーするように拡張する必要がある。

目標はAIの導入を阻むことではなく、大規模な安全な展開を可能にすることであり、セキュリティチームが自律的な環境で自信を持って運用するために必要な可視性とシグナルの明確さを提供することである。

サイバーセキュリティの基礎知識

よくあるご質問(FAQ)

エージェント型AIセキュリティとは何か?

主体性を持つAIシステムの主なリスクは何ですか?

能動的AIと生成AIの違いは何ですか?

AIセキュリティにおける致命的な三要素とは何か?

AIエージェントのセキュリティガードレールをどのように実装しますか?

能動的AIにおける非人間的アイデンティティとは何か?

能動的AIにはどのようなコンプライアンス枠組みが適用されるのか?