AIレッドチームングの解説:敵対的脅威に対するAIシステムの保護

主な洞察

  • AIレッドチームングは、セキュリティテスト(AIを攻撃から保護)と安全テスト(ユーザーをAIの危害から保護)を組み合わせたものであり、包括的なカバー範囲には両方の側面が必要である。
  • AIレッドチームングサービスの市場規模は2024年に14億3000万ドルに達し、規制要件とAI導入の増加を背景に、2029年までに48億ドルへ成長すると予測されている。
  • ロールプレイ攻撃は大規模言語モデル(LLM)に対して89.6%の成功率を達成し、複数ターン型脱獄は5ターン以内の会話で97%の成功率に達する
  • MicrosoftのPyRITやNVIDIAのGarakといったオープンソースツールは、手動による専門家テストと組み合わせることで、大規模な体系的なAIレッドチーム活動を可能にする
  • NIST、MITRE ATLAS、OWASP、およびEU AI法は、AIレッドチームングプログラムを構築するための権威ある枠組みを提供しており、2026年8月までに完全なEU準拠が要求される。

組織が人工知能の導入を加速させる中、重大な疑問が生じる:毎回異なる挙動を示すシステムを、いかにして保護するのか?従来のセキュリティテストは、同じ入力が同じ出力を生む決定論的ソフトウェア向けに構築されていた。AIシステムは全く異なるパラダイムで動作し、確率論的な応答を生成する。これは従来のサイバーセキュリティチームが想定もしなかった方法で操作される可能性がある。

事態は深刻だ。アドバーサAIの2025年セキュリティ報告書によると、現実世界のAIセキュリティインシデントの35%は単純なプロンプトが原因であり、1件あたり10万ドルを超える損失をもたらした事例もある。2026年1月にOpenAIがGPT-5をリリースすると、SPLXのレッドチームは24時間以内に脱獄に成功し、「企業向けにはほぼ即戦力として使用不可能」と宣言した。

本ガイドは、セキュリティ専門家向けにAIレッドチームングを理解し実装するための包括的なフレームワークを提供します。チームの能力を拡張するSOCリーダー、投資のビジネスケースを構築するCISO、AIセキュリティプログラムを評価するセキュリティアーキテクトのいずれであっても、最新のフレームワーク、ツール、実証データに基づいた実践的なガイダンスを得られます。

AIレッドチームとは何か?

AIレッドチームングとは、攻撃者が悪用する前に脆弱性、安全上の問題、セキュリティ上の欠陥を特定するためにAIシステム向けに特別に設計された敵対的テストの実践である。インフラストラクチャやアプリケーションに焦点を当てる従来のレッドチームングとは異なり、AIレッドチームングは機械学習モデルの固有の攻撃対象領域、すなわちトレーニングデータ、推論パイプライン、プロンプト、そしてモデル動作そのものを標的とする。

この手法は軍事およびサイバーセキュリティ分野のレッドチーム活動から発展したが、AIシステム特有の課題に対処するものである。従来のソフトウェアが決定論的に動作するのに対し、AIシステムは確率モデルに基づいて変動する出力を生成する。この根本的な差異により、統計的変動と創発的挙動を考慮したテスト手法が求められる。

グロース・マーケット・レポートによると、AIレッドチームサービス市場は2024年に14億3000万ドルに達し、2029年までに年平均成長率28.6%で48億ドルに成長すると予測されている。この成長は、EU AI法などの枠組みによる規制圧力と相まって、企業におけるAI導入の増加を反映している。

ジョージタウン大学CSETの研究は、AIレッドチームングが実際に何を包含するのかについて本質的な明確化を提供している。この用語はプロンプトハッキングから包括的なセキュリティ評価まであらゆるものに適用されてきたが、効果的なプログラムはセキュリティの側面(悪意ある行為者からAIを保護する)と安全性の側面(AIが危害を加えるのを防ぐ)の両方に対処するものである。

AIセキュリティプログラムを導入する組織は、この二重性を理解しなければならない。プロンプト注入には耐えるが偏った出力を生成するシステムは、依然として重大なリスクを孕んでいる。逆に、強力な安全ガードレールを備えつつセキュリティ制御が脆弱なシステムは、執念深い攻撃者に対して脆弱なままだ。

レッドチーム活動におけるAI安全性対AIセキュリティ

AIの安全性とセキュリティテストの区別は、AIレッドチーム活動における最も重要な概念的枠組みの一つである。

AI安全テストは、世界がAIから守られることに焦点を当てています。これには以下のテストが含まれます:

  • モデル出力におけるバイアスと差別
  • 幻覚と事実誤認
  • 有害コンテンツ生成
  • 悪用の可能性

AIセキュリティテストは、AIを外部環境から保護することに焦点を当てています。これには以下のテストが含まれます:

  • プロンプト注入攻撃
  • データ漏洩の試み
  • モデル操作
  • トレーニングデータへの不正アクセス

Anthropicの方法論文書は、主要なAI研究所が両側面を統合する方法を示している。彼らのレッドチームプログラムでは、ドメイン固有の専門家(信頼性と安全性の専門家、国家安全保障の専門家、多言語テスターを含む)を起用し、安全性とセキュリティの両方の脆弱性を調査している。

効果的なAIレッドチーム活動は両方の側面に対処する。攻撃者は最も容易な経路を提供する弱点を悪用するからだ。有害なコンテンツ生成を可能にする安全性のバイパスは、兵器化されるとセキュリティ問題となり得る。トレーニングデータを漏洩させるセキュリティ脆弱性は、プライバシーと信頼性に対する安全性の問題を引き起こす。

セキュリティチームが従来の脅威に対して展開する振る舞い 検知機能は、こうしたAI特有の攻撃パターンに対応できるよう進化させなければならない。

AIレッドチームングの仕組み

効果的なAIレッドチーム活動は、従来のセキュリティテストをAIシステムの固有特性に適応させる構造化された方法論に従う。

AIレッドチームングプロセス:

  1. 範囲と計画- AIシステムの境界、脅威モデル、およびテスト目的を定義する
  2. 敵対的戦略の開発- システムタイプ(LLM、エージェント型、マルチモーダル)に基づく攻撃ベクトルの特定
  3. テストの実行- 手動テスト、自動テスト、または人間が関与するハイブリッド方式を実施する
  4. 調査結果の文書化- 証拠と影響評価を伴う再現可能なテストケースを作成する
  5. 緩和策の検証- 修正後の再テストで脆弱性の解消を確認する
  6. 継続的モニタリングの実施- モデルの進化に伴い、継続的なテストのペースを確立する

マイクロソフトのAIレッドチームに関する文書は、この手法に関する権威あるガイダンスを提供しています。同チームは、これらの手順を大規模に運用化するためにPyRIT(生成AI向けPythonリスク識別ツール)を開発しました。

AIシステムにおいては、スコープ定義段階に特に注意を払う必要がある。定義された機能を持つ従来型アプリケーションとは異なり、AIシステムは設計段階では明らかにならない創発的挙動を示す。効果的なスコープ定義では、AIシステムの想定されるユースケース、アクセスするデータ、実行可能なアクション、および障害発生時の潜在的な影響を特定する。

敵対的戦略策定は、潜在的な攻撃ベクトルをテスト対象の特定AIシステムにマッピングする。LLM搭載のカスタマーサービスチャットボットと、ツールアクセス権を持つ自律型AIエージェントでは、直面する脅威が異なる。戦略では、発生確率と潜在的影響度に基づき攻撃の優先順位を決定すべきである。

実行手法はテスト目的によって異なる。発見テストは存在する脆弱性を特定する。悪用テストは脆弱性が攻撃に利用可能か判断する。権限昇格テストは初期アクセスが広範な侵害につながるか検証する。持続性テストは攻撃者が長期的にアクセスを維持できるかを検証する。

レポートと分析には再現可能なテストケースを含める必要があります。AIシステムは変動する出力を生成するため、テスト文書では脆弱性を引き起こした正確な入力、モデルバージョン、条件を記録すべきです。これにより開発者は問題を再現し修正できます。

手動対自動のAIレッドチームング

手動と自動化されたAIレッドチームングの議論は、ハイブリッド手法への合意へとほぼ収束した。

手動テストは新たな脆弱性を発見する上で依然として不可欠である。人間の創造性は自動化ツールが予測できない攻撃パターンを特定する。arXivの研究によれば、ロールプレイ攻撃の成功率は89.6%、ロジックトラップ攻撃は81.4%、エンコーディングトリックは76.2%に達する。これらの技術の開発と改良には人間の洞察力が求められる。

自動テストは規模と体系的なカバレッジを提供する。ツールはモデルバージョンを跨いだ数千の攻撃バリエーションをテストし、後退を特定し、一貫したセキュリティ基準を確保できる。GiskardのGOAT研究は、自動化された複数ターン攻撃が5ターン以内の会話で小型モデルに対し97%の脱獄成功率を達成することを実証している。

マイクロソフトは、自動スケーリングを実装する前に、まず手動によるレッドチームテストを完了することを推奨します。手動テストでは、特定のシステムにとって重要な攻撃パターンを特定します。その後、自動テストにより、システムが進化するにつれて、それらのパターンとその変種が一貫してテストされることが保証されます。

ハイブリッドなヒューマン・イン・ザ・ループ手法は両方の強みを組み合わせる。自動化ツールは学習したパターンに基づき攻撃候補を生成する。人間の専門家が結果を検証し、有望な方向性を特定し、自動探索を高価値ターゲットへ導く。

脅威ハンティング能力を構築する組織にとって、このハイブリッドモデルはネットワークセキュリティの進化を反映している。自動検知は既知のパターンを大規模に処理し、人間のアナリストは新たな脅威を調査する。

従来のレッドチームングとの主な相違点

従来のレッドチームングスキルはAIレッドチームングの基盤となるが、AIシステムの固有の特性により、追加の能力と異なるアプローチが必要となる。

表1:従来型レッドチームとAIレッドチームの比較

この表は、従来のサイバーセキュリティ・レッドチーム活動とAI特化型レッドチーム活動の主要な側面を比較し、AIシステムに必要な拡大された範囲と異なる技術を強調している。

ディメンション 従来のレッドチーム活動 AIレッドチーム活動
システム動作 決定論的(同じ入力が同じ出力を生み出す) 確率的(出力値が変動するため統計的分析が必要)
アタックサーフェス ネットワーク、アプリケーション、インフラストラクチャ モデル、トレーニングデータ、プロンプト、推論パイプライン
スキル要件 ネットワークセキュリティ、アプリケーションセキュリティ、ソーシャルエンジニアリング 機械学習/人工知能の専門知識+セキュリティ知識+敵対的思考
試験頻度 定期的(年次または四半期ごと) 継続的(モデルは進化し、新たな攻撃が出現する)
スコープ セキュリティの脆弱性 セキュリティ上の脆弱性 + 安全上の危害
成功基準 エクスプロイトの成功の有無 複数回の試行における統計的成功率
修復 パッチまたは設定変更 モデルの再学習、ガードレールの更新、アーキテクチャの変更

AIシステムの確率的性質は、テスト手法を根本的に変える。従来のアプリケーションがSQLインジェクション脆弱性を持つ場合、不正な入力に対して一貫して失敗する。一方、LLMが脱獄脆弱性を持つ場合、一部の試行には抵抗しつつ、他の試行には屈服する可能性がある。レッドチームは複数のテスト反復を実行し、二値の合格/不合格結果ではなく統計的な成功率を報告しなければならない。

攻撃対象領域は大きく異なる。従来のレッドチームは認証システム、権限昇格経路、ネットワークセグメンテーションを標的とする。AIレッドチームはこれらに加え、プロンプト注入、トレーニングデータ汚染、モデル出力から機密情報を抽出するモデル逆解析攻撃など、モデル固有の攻撃ベクトルを標的とする。

スキル要件はこの拡大した範囲を反映している。効果的なAIレッドチームメンバーは、従来のセキュリティ専門知識に加え、機械学習の知識とAIシステムの使用事例に関連するドメイン専門知識を兼ね備えている。HiddenLayerのフレームワークによれば、この組み合わせは稀であり、この分野における人材不足の一因となっている。

AIレッドチームング対ペネトレーションテスト

AIレッドチーム活動とペネトレーションテストの関係は、しばしば混同される。Zscalerの比較フレームワークは、その違いを明確にするのに役立つ。

ペネトレーションテストは、インフラストラクチャ、アプリケーション、ネットワークの脆弱性に焦点を当てます。ペネトレーションテスターは、定義された範囲内で既知の脆弱性クラスを悪用しようと試みます。目的は、特定のセキュリティ上の弱点を特定し、その修正の優先順位を付けることです。

AIレッドチーム活動はインフラストラクチャを超え、モデルの挙動、トレーニングの完全性、AI特有の攻撃ベクトルを含む。AIレッドチーム担当者は、AIシステムに意図しない動作を引き起こそうとする。これにはインフラストラクチャの脆弱性の悪用が含まれる場合もあれば、含まれない場合もある。

組織は包括的なセキュリティのために両方が必要です。十分に保護されたインフラストラクチャは、モデルの動作を操作するSQLインジェクション攻撃から守れません。逆に、堅牢なモデルのガードレールも、攻撃者がインフラの脆弱性を通じてトレーニングデータにアクセスできる場合には役に立ちません。

金融サービス向けAIチャットボットを想定する。ペネトレーションテストでは、チャットボットをホストするWebアプリケーション、バックエンドシステムと接続するAPI、およびそれらを保護する認証メカニズムを評価する。AIレッドチームングでは、チャットボットが操作されて顧客データを漏洩させたり、意図された範囲外の金融アドバイスを提供したり、有害なコンテンツを生成したりする可能性を評価する。

レッドチーム作戦に熟練したチームにとって、AIレッドチームングは既存スキルの代替ではなく、活動範囲の拡大を意味する。

AIレッドチーム攻撃の種類

AIレッドチームは、従来のセキュリティ脆弱性とは大きく異なる攻撃カテゴリをテスト対象とする。この分類体系を理解することで、実務者はテストの優先順位付けや発見事項の効果的な伝達が可能となる。

表2:AIレッドチーム攻撃分類体系

この表は、AIレッドチームがテストする主要な攻撃カテゴリを一覧化し、説明、事例、および潜在的な影響を提供することで、実務者がテストの取り組みを理解し優先順位付けするのに役立ちます。

攻撃タイプ 説明 インパクト
プロンプト注入 AIの動作を操作する悪意のある入力 以前の指示を無視し、システムプロンプトを表示する データ漏洩、不正アクセス
脱獄 安全ガードレールを回避する技術 モデルを有害な出力へと誘導するロールプレイシナリオ 有害コンテンツの生成、ポリシー違反
データ汚染 トレーニングデータへの攻撃によるモデル動作の改ざん 悪意のある例をトレーニングデータセットに注入する 持続的なモデル操作
モデル回避 誤分類を引き起こす敵対的入力 分類器を欺く微妙な画像改変 セキュリティバイパス、偽陰性
データ流出 モデルからの機密情報の抽出 トレーニングデータを暴露するメンバーシップ推論攻撃 プライバシー侵害、知的財産権侵害
メンバーシップ推論 特定のデータがトレーニングに使用されたかどうかの判定 モデルの信頼度スコアの統計的分析 プライバシー侵害、コンプライアンス問題

プロンプト注入攻撃

プロンプトインジェクションは、最も一般的かつ危険なAI特有の攻撃ベクトルである。これらの攻撃は、細工された入力によってAIの動作を操作し、システムに意図しない行動を実行させる。

ダイレクトインジェクションは、攻撃者が制御する入力がモデルの動作を直接操作する際に発生する。攻撃者はシステムのプロンプトを上書きするテキストを送信し、AIのパーソナリティ、目的、または制約を変更する可能性がある。

間接注入は、AIが処理する外部データソースに悪意のある指示を埋め込む手法である。TenableによるChatGPT脆弱性に関する調査では、SearchGPTが悪意のあるブログコメントを読み取ることで間接的なプロンプト注入が発生することが確認され、外部コンテンツを消費するAIシステムが第三者攻撃に対して脆弱になる実態が明らかになった。

2025年のアドバーサAIレポートによると、現実世界のAIセキュリティインシデントの35%は単純なプロンプト攻撃に起因していた。これらの攻撃には特別なツールや専門知識が不要なため、機会主義的な攻撃者にも実行可能である。

プロンプト注入の効果的なテストには、攻撃手法の創造性と注入ポイントの体系的な網羅が求められる。AIシステムが受け入れるあらゆる入力が潜在的な注入ベクトルとなる。

脱獄と安全対策の回避

脱獄技術はAIシステムに組み込まれた安全ガードレールを回避する。研究によれば、高度なガードレールでさえ、執念深い攻撃者に対しては機能しないことが実証されている。

arXivの研究によれば、ロールプレイ攻撃の成功率は89.6%に達する。攻撃者は架空のシナリオ内で要求を構成することで、モデルに本来なら拒否するはずのコンテンツを生成させることに成功している。

複数ターンにわたる脱獄は、有害な出力へと段階的に構築される。GiskardのGOAT研究によれば、これらの攻撃は小規模モデルでは97%、GPT-4-Turboでは88%の成功率を、5ターン以内の対話で達成する。

論理的罠攻撃はモデルの推論能力を悪用し、81.4%の成功率を達成する。これらの攻撃は、論理的に一貫した応答が安全ガイドラインの違反を必要とするシナリオを提示する。

脱獄開発のスピードは、この課題の深刻さを浮き彫りにしている。OpenAIが2026年1月にGPT-5をリリースすると、レッドチームは24時間以内に脱獄に成功した。これはGrok-4やその他の主要モデルリリースで見られたパターンと同様である。

脱獄の検知には、攻撃と防御の両方が進化するため、継続的な取り組みが必要である。今日既知の脱獄手法に耐えるモデルも、明日には新たな技術に破られる可能性がある。

主体性を持つAIの攻撃ベクトル

自律型AIエージェントの台頭により、従来のLLMセキュリティには存在しなかった攻撃カテゴリーが生まれている。OWASPの「エージェント型アプリケーション向けトップ10、こうしたシステム向けに初めて専用のセキュリティフレームワークを提供する。

エージェント目標乗っ取りASI01) 操作によってエージェントの核心的な使命を転向させる。単純なプロンプト注入とは異なり、目標乗っ取りは個々の応答ではなく、エージェントの持続的な目的を標的とする。

ツールの誤用と悪用ASI02) エージェントが意図せず有害な方法でツールを呼び出す原因となる。メール、データベース、外部APIへのアクセス権を持つエージェントは、設計者が意図しなかった行動を取らされる可能性がある。

アイデンティティと特権の乱用ASI03) エージェントの身元や過剰な権限を悪用する。エージェントは任務遂行のため昇格された権限で動作することが多く、これにより悪用される機会が生じる。 内部脅威 侵害された場合

カスケード障害ASI08) 相互接続されたエージェントシステム全体で、小さなエラーが破壊的な連鎖反応を引き起こす際に発生する。マルチエージェントアーキテクチャは故障モードを増幅させる。

エージェント型AIを導入する組織は、従来のセキュリティ対策ではこれらの攻撃ベクトルに対処できない可能性があることを理解しなければならない。アイデンティティ脅威の検知および対応能力は、人間やサービスアカウントのアイデンティティと並行してAIエージェントのアイデンティティを監視できるよう進化させる必要がある。

エージェントシステムのテストには、ツールへのアクセス、記憶の持続性、エージェント間通信チャネルなど、エージェントの能力の全範囲を評価する必要がある。エージェントが持つ能力が増えるごとに攻撃対象領域は拡大する。

AIシステムに対するデータ窃取攻撃、広範なアクセス権を持つエージェントを悪用して機密データを収集・送信させるため、これらの攻撃ベクトルをいずれも利用する可能性がある。AI環境における横方向移動のパターンは、従来のネットワーク横方向移動とは異なる様相を示す場合がある。侵害されたエージェントがネットワーク経路ではなくAPI接続を経由して移動するためである。

AIレッドチームツールと自動化

AIレッドチームングツールのエコシステムは著しく成熟し、実践者向けにオープンソースと商用オプションの両方が利用可能となっている。

表3: AIレッドチームツール比較

この表は主要なオープンソースAIレッドチームングツールを比較し、開発元、強み、主要機能、ライセンスを強調することで、実務者が適切なソリューションを選択する手助けをします。

工具 開発者 最適 主な特徴 ライセンス
PyRIT Microsoft エンタープライズLLMテスト Azure AI Foundry 統合、包括的な攻撃ライブラリ、AI レッドチームング エージェント マサチューセッツ工科大学
ガラック NVIDIA LLM脆弱性スキャン 広範なプローブラブラリ、複数モデル対応、プラグインアーキテクチャ アパッチ 2.0
ディープチーム ディープエバル 自動化されたレッドチーム活動 自動テスト生成、CI/CD統合 アパッチ 2.0
プロンプトフー プロンプトフー LLMのテストと評価 レッドチームング機能、EU AI法準拠、オープンソース マサチューセッツ工科大学
レッドAIレンジ(RAR) コミュニティ 訓練とシミュレーション Dockerベース、脆弱性シミュレーション、教育に重点を置いた マサチューセッツ工科大学

マイクロソフトのPyRITが主要なエンタープライズツールとして台頭している。Azure AI Foundryと連携し、2025年4月にリリースされたAIレッドチームングエージェントを組み込み、自動化されたテストワークフローを実現する。PyRITの攻撃ライブラリはプロンプトインジェクション、脱獄攻撃、コンテンツ安全性テストを網羅している。

NVIDIAのGarakは、広範なプローブライブラリを用いたLLM脆弱性スキャンに焦点を当てています。バージョン0.14.0は現在開発中で、エージェント型AIシステムへの対応が強化されています。Garakのプラグインアーキテクチャにより、組織固有の要件に合わせたカスタムプローブの開発が可能です。

Red AI Rangeは、AIの脆弱性をシミュレートするためのDockerベースの環境を提供し、トレーニングや教育目的に有用です。

Zscaler、Mindgard、HackerOneの商用プラットフォームは、ベンダーサポートを好む組織向けに管理サービスと追加機能を提供します。これらは通常、コンプライアンス報告、継続的テスト統合、専門家によるコンサルティングを含みます。

オープンソースツール比較

適切なツールの選択には、組織のニーズに能力を適合させる必要がある。

PyRITの強みには、マイクロソフトの支援、包括的なドキュメント、Azureとの深い統合が含まれます。Azure AIサービスを利用する組織は、ネイティブサポートの恩恵を受けられます。攻撃ライブラリは、Bing ChatやMicrosoft 365 Copilotを含む本番システムをテストするマイクロソフトのAIレッドチームの実践を反映しています。

Garakの強みには、NVIDIAのAI専門知識、LLMプロービングへの注力、そして広範な脆弱性検出能力が含まれます。このツールは、複数のモデルにわたる体系的なテストと、バージョン間の回帰の特定に優れています。

選考基準には以下を含めるべきである:

  • システムタイプ:どのAIシステムをテストしますか?大規模言語モデル(LLM)、エージェント型AI、マルチモーダルモデル?
  • チームの専門性:Python、特定のクラウドプラットフォーム、機械学習の概念について、チームはどの程度精通していますか?
  • 統合要件:ツールは既存のCI/CDパイプラインやセキュリティプラットフォームとの統合が必要ですか?
  • 攻撃カバレッジ:ツールの攻撃ライブラリは、優先度の高い脅威シナリオをカバーしていますか?

セキュリティオペレーションセンターチームがAIレッドチーム能力を構築する場合、これらのツールは人間の専門知識を置き換えるのではなく補完するものである。自動化ツールは網羅性と一貫性を提供する。人間のテスターは創造性と新規攻撃手法の開発を提供する。

新たな攻撃手法が出現するにつれ、脅威検知はツール設定に反映される。組織は、新たな脅威や脆弱性の開示に基づいて攻撃ライブラリを更新するプロセスを確立すべきである。

フレームワークとコンプライアンス

AIレッドチーム活動は、進化し続けるフレームワークと規制の環境下で実施される。これらの要件を理解することは、組織が効果的なプログラムを構築し、コンプライアンスを実証するのに役立つ。

表4:AIレッドチームングフレームワークの対応表

この表は主要なAIガバナンス枠組みとレッドチーム要件を対応付け、組織が規制環境を理解し、テストプログラムをコンプライアンス義務に整合させることを支援します。

フレームワーク スコープ レッドチーム要件 主要な操作
NIST AI RMF 米国連邦政府のガイダンス Measure関数における敵対的テスト リスクの特定、影響評価、文書化
MITRE ATLAS AI脅威分類体系 脅威を反映したテスト 15の戦術、66の技法、攻撃マッピング
OWASP トップ10 LLM LLM出願 脆弱性カテゴリテスト プロンプト注入、データポイズニング、SSRF
OWASP エージェニック 自律エージェント エージェント固有のテスト 目標の乗っ取り、ツールの誤用、連鎖的な失敗
EU人工知能法 高リスクAIシステム 適合性評価 文書化、テスト、人的監視

NISTのAIリスク管理フレームワークは、敵対的テストを測定機能の一部として位置付けている。同フレームワークはレッドチームングを「ストレス条件下におけるAIシステムの敵対的テストから成る手法であり、AIシステムの故障モードや脆弱性を探ることを目的とする」と定義している。

MITRE ATLASは、AI特有の脅威に対応するためATT&CKフレームワークを拡張したものです。2025年10月の更新では、AIエージェントと生成AIシステムに焦点を当てた14の新規手法が追加されました。ATLASは現在、15の戦術、66の手法、46のサブ手法、26の緩和策、33の事例研究を含んでいます。

OWASPは、LLMアプリケーション向けトップ10(2025年版)、2025年1月発表のジェネレーティブAIレッドチームングガイド、2025年12月発表のエージェント型アプリケーション向けトップ10など、複数のリソースを提供しています。

コンプライアンス要件に対応する組織にとって、これらのフレームワークは規制当局の期待を満たし、デューデリジェンスを実証する権威あるガイダンスを提供する。

EU AI法のレッドチーム要件

EU AI法は、高リスクAIシステムに対する敵対的テストの義務的要件を導入する。PromptfooのEU AI法ガイダンスは、具体的な義務を詳述している。

高リスク分類は、AIレッドチームングの実施が義務付けられるかどうかを決定する。重要インフラ、教育、雇用、法執行、国境管理などの分野のシステムは、より高い要件に直面する。

文書化要件には、リスク管理システムの一環として敵対的テストが含まれる。組織は体系的なテストを通じて潜在的な脆弱性を特定し軽減したことを実証しなければならない。

タイムライン:高リスクAIシステムについては、2026年8月2日までに完全な準拠が求められる。システミックリスクを伴う汎用AI(GPAI)モデルには、追加のレッドチーム義務が課される。

違反に対する罰則は、3,500万ユーロまたは全世界の年間売上高の7%のいずれか高い方に達する。

欧州市場でAIを導入する組織は、コンプライアンスプログラムにレッドチーム活動を組み込む必要がある。EU域外の組織であっても、そのAIシステムがEU市民に影響を与える場合、要件の対象となる可能性がある。

MITRE ATLAS for AI レッドチームング

MITRE ATLASは、AIレッドチームがテストを構造化し、調査結果を報告するために使用する分類体系を提供する。

フレームワーク構造はATT&CKの既知の形式を反映している。戦術は攻撃者の目標を表す。手法は攻撃者がそれらの目標を達成する方法を説明する。対策は防御上の推奨事項を提供する。

AI固有の戦術には以下が含まれる:

  • AML.TA0004 - MLモデルへのアクセス:機械学習モデルへのアクセスを得るための手法
  • AML.TA0012 - ML攻撃の段階的展開:機械学習システムに対する攻撃の準備手法

2025年10月更新では、Zenity Labsとの共同開発により、AIエージェントおよび生成AIに対応する14の新技術を追加しました。

レッドチームの調査結果との統合により、一貫性のある報告が実現します。レッドチームが脆弱性を発見した場合、それらをATLAS手法にマッピングすることで、評価間の比較と修正進捗の追跡が可能になります。

MITRE ATT&CKに精通しているチーム向け MITRE ATT&CKに精通しているチームにとって、ATLASはAIシステムのための自然な拡張機能を提供します。これらのフレームワークは概念的な基盤を共有しつつ、異なる攻撃対象領域に対処します。

AIレッドチームの構築と運用

AIレッドチーム能力の構築には、人材、プロセス、ツールへの計画的な投資が必要です。本セクションでは、成熟度の異なる段階にある組織に向けた実践的なガイダンスを提供します。

AIレッドチームングのチーム構成は複数の分野にまたがる:

  • モデル内部構造とトレーニングプロセスを理解する機械学習/人工知能エンジニア
  • 従来のペネトレーションテストやレッドチーム活動の実績を持つセキュリティ研究者
  • AIシステムの想定用途に精通した専門家
  • 安全重視の試験のための倫理学者または安全専門家

AIキャリアファインダーによると、AIレッドチームスペシャリストの年収は13万ドルから22万ドルの範囲で、需要は前年比55%増加している。人材不足のため、組織は内部のセキュリティ専門知識と外部のAI専門家を組み合わせたハイブリッドチームを構築することが多い。

実装フェーズは成熟度モデルに従う:

  1. 評価(第1~2週):AIシステムの棚卸し、高リスクアプリケーションの特定、現行機能の評価
  2. パイロット(第3~6週):優先度の高いシステムを1つ選定し、初期レッドチーム活動を実施、結果を文書化する
  3. スケーリング(第7~12週):テスト対象を他のシステムに拡大、自動化を実施、実施頻度を確立
  4. 継続的運用(進行中):開発ワークフローとの統合、攻撃ライブラリの維持管理、メトリクスの追跡

構築と購入の判断は組織の文脈に依存する。内部チームは深い組織的知見と持続的な能力を提供する。MDRプロバイダーのマネージドサービスは採用課題を伴わずに専門知識を提供する。ハイブリッドアプローチでは、内部能力を構築しつつ、新規テストのために外部専門家を活用する。

投資利益率(ROI)と事業計画

AIレッドチームングのビジネスケース構築には、コストと便益の両方を定量化する必要がある。

オブシディアン・セキュリティコストベンチマークによると、外部AIレッドチーム活動は範囲と複雑性に応じて16,000ドル以上から開始される。内部チームには給与投資に加え、ツール、トレーニング、継続的な開発が必要となる。

効率性の向上は測定可能なリターンをもたらす。成熟したAIレッドチームプログラムを導入している組織では、AI関連のセキュリティインシデントが60%減少している。これはインシデント対応コストの削減、事業中断の減少、規制罰則の回避につながる。

リスク回避の正当性は、防止された損失に焦点を当てる。Adversa AIの報告書によれば、単純なプロンプト攻撃による損失は1件あたり10万ドルを超えている。単一のインシデントを防止するだけで、多額のプログラム投資を正当化できる。

正当化の枠組みは以下に対処すべきである:

  • リスク低減脆弱性の暴露とインシデント発生確率の定量化された減少
  • コンプライアンス:コンプライアンス遵守コスト対罰則・是正措置コスト
  • ブランド保護:顧客の信頼を維持し、公的な侵害を回避することの価値
  • 運用効率:既知のAI脆弱性によるアラート量の削減を通じたSIEM最適化

継続的AIレッドチーム活動

時点評価はスナップショットを提供するものの、AIシステムの動的な性質を見逃す。継続的なレッドチーム活動はこの限界に対処する。

なぜ継続的か:AIモデルは微調整、プロンプトエンジニアリングの変更、基盤となるモデルのアップデートを通じて進化する。新たな攻撃手法は絶えず出現する。防御策には継続的な検証が必要だ。前四半期にテストを通過したシステムでも、今日新たな脆弱性が存在する可能性がある。

CI/CDとの統合:自動化されたレッドチームツールは開発パイプライン内で実行可能であり、各モデル更新をデプロイ前にテストします。これにより回帰を早期に捕捉し、脆弱性のある変更が本番環境に到達するのを防止します。

テスト頻度の推奨事項

  • 高重要度システム:週次自動テスト、月次手動テスト
  • 中重要度システム:隔週の自動テスト、四半期ごとの手動テスト
  • 低重要度システム:月次自動テスト、年次手動テスト

監視とアラート機能は、本番環境における悪用試行を特定することでテストを補完します。振る舞い 、進行中の攻撃を示す可能性のある検知 AIシステムの動作を検知 できます。

AIレッドチームングへの現代的アプローチ

AIレッドチームングの動向は急速に進化を続けており、拡大するAI攻撃対象領域に対処するための新たな手法が登場している。

自動化された継続的テストは実験段階から主流へと移行した。Virtue AIのAgentSuiteのようなプラットフォームは、30以上のサンドボックス環境において100を超える独自のエージェント特化型攻撃戦略を用いた継続的なレッドチームングを提供する。Help Net Securityによれば、これは重大なギャップを解消するものである:IBMの報告では、79%の企業がAIエージェントを導入しているにもかかわらず、97%が適切なセキュリティ対策を実施していない。

マルチモーダルテストはテキストだけでなく、画像、音声、動画入力にも拡大する。AIシステムがより豊富な入力を受け入れるにつれ、攻撃対象領域は拡大する。音声クローン攻撃は、ソーシャルエンジニアリングを通じて多要素認証を回避する能力を示している。

現在の投資は主体性AIに集中している。2025年12月に発表された主体性アプリケーション向けOWASPトップ10は、自律エージェントの脅威状況を体系化した。これらのシステムのテストには、ツールへのアクセス、メモリ永続性、エージェント間通信の評価が必要となる。

AI支援型レッドチームングは、AIシステムを用いて大規模に対抗的入力を生成する。この手法は、人間が見逃す可能性のある攻撃パターンを発見すると同時に、AIシステムがAIシステムをテストすることへの疑問を提起する。

業界再編は市場の成熟を反映している。CrowdStrikeによるSGNLの7億4000万ドルでの買収はAIアイデンティティ認証に対応するものだ。Palo Alto NetworksはAI可観測性のためChronosphereを買収した。これらの取引は、AIセキュリティが主要サイバーセキュリティソリューションベンダーにとって戦略的優先事項となったことを示している。

NVIDIAのサンドボックス化ガイダンスは、エージェント型AIワークフローにおいて封じ込めが唯一の拡張可能な解決策であることを強調している。同社のAIレッドチームは、LLMが生成したコードをすべて信頼できない出力と見なし、サンドボックス環境での実行を必要とするよう推奨している。

Vectra 考えるAIセキュリティ

Vectra 、侵害を前提とする視点と攻撃信号インテリジェンスを通じてAIセキュリティにアプローチする Attack Signal Intelligenceという観点からAIセキュリティにアプローチします。効果的なAIセキュリティプログラムは、予防だけに頼るのではなく、積極的なレッドチーム活動と継続的な監視・検知を組み合わせる必要があります。

これは、AIシステムを敵対的にテストすると同時に、それらのシステムが本番環境でどのように動作するかを可視化し続けることを意味します。目的は、悪用を示唆する可能性のある異常なパターンを特定し、攻撃が成功した際に迅速に対応することです。

AIシステムのセキュリティ成熟度を定義するのは、単なる予防ではなく回復力である。Vectra を利用する組織は、従来のネットワーク、ID、クラウド攻撃パターンに加え、AI関連の脅威に対処するため検知・対応機能を拡張している。

ネットワーク検知および対応機能は、AIシステムの通信を可視化し、データ漏洩の試み、コマンド&コントロールのパターン、AIインフラストラクチャを伴う横方向の移動を特定します。

今後の動向と新たな考察

今後12~24か月で、AIレッドチームングの動向は急速に進化し続けるでしょう。セキュリティ専門家は、いくつかの重要な進展に備える必要があります。

自律型AIの普及は新たな攻撃手法を生み出す。組織が自律性とツールアクセスを強化したAIエージェントを導入するにつれ、攻撃対象領域は劇的に拡大する。OWASP自律型トップ10は、こうしたシステム向けのフレームワーク開発の始まりを示すものである。自律型エージェントに特化した追加のガイダンス、ツール、規制当局の注目が今後予想される。

規制の収斂がコンプライアンス要件を形作る。EU AI法が最も規範的な要件を定めているが、他の管轄区域も独自の枠組みを構築中である。グローバルに事業を展開する組織は、効果的なセキュリティプログラムを維持しつつ、潜在的に矛盾する要件を調整する必要がある。

マルチモーダル攻撃はより高度化する。現在のレッドチーム活動はLLMに対するテキストベースの攻撃に重点を置いている。AIシステムが画像、音声、動画、センサーデータを処理するにつれ、攻撃手法はこれらのモダリティを標的とするようになる。音声ディープフェイク攻撃は既に認証システムに対する有効性を実証している。

AI対AIのセキュリティは新たな課題を提起する。AIシステムがAIを活用した攻撃に対抗する場合、その力学は人間対機械のシナリオとは異なる。レッドチームは、防御型AIシステムが人間の攻撃者だけでなく敵対的AIに対してどのように機能するかを評価する必要がある。

投資の優先事項には以下を含めるべきである:

  • 規制の期限前にAIレッドチームングの専門知識を構築または取得する
  • 本番AIシステム向け継続的テストインフラの実装
  • AI攻撃パターンに特化した検知能力の開発
  • 安全とセキュリティの両方に対応するガバナンス枠組みの確立

組織は、MITRE ATLASの更新、OWASPフレームワークのリリース、およびAIインフラストラクチャコンポーネントにおける新たなCVEを追跡すべきである。この分野は急速に進化しており、脅威が進化するにつれて、今日のベストプラクティスは不十分になる可能性がある。

Vectra のAIセキュリティ学習リソースは、状況の変化に合わせて継続的なガイダンスを提供します。

サイバーセキュリティの基礎知識

よくあるご質問(FAQ)

AIレッドチームとは何か?

AIレッドチームングは従来のレッドチームングとどのように異なるのか?

AIレッドチームングにはどのようなツールが使用されますか?

AIの安全性とAIのセキュリティの違いは何ですか?

AIレッドチームングにおけるプロンプトインジェクションとは何か?

EU AI法はレッドチーム活動に何を要求しているのか?

MITRE ATLASはAIレッドチーム活動とどのように関連しているのか?

AIレッドチームングは完全に自動化できるのか?