「Prompt Control：コンテキストがいかにしてAIエージェントの指揮統制層となるか」ルシー・カルディエ著

2026年5月12日更新： GTIGの2026年5月版AI脅威トラッカーでは、実環境においてプロンプトベースのコマンド＆コントロールを実用化したAndroidバックドア「PROMPTSPY」が報告されています。その「GeminiAutomationAgent」モジュールは、デバイスのUI階層をシリアル化し、攻撃者が指定した目的と共にGemini APIへ送信し、モデルの応答を解析してデバイス上で実行可能な操作に変換します。プロンプトは命令セットであり、モデルはインタプリタである。C2チャネルは推論ループを通じて動作し、まさに以下に説明するパターンそのものである。

---

【本記事は自動翻訳です】従来のコマンド＆コントロール方式は明示的です。感染したシステムは外部に接続し、指示を受け取り、それを実行し、結果を報告します。たとえ暗号化されていても、その構造は変わりません。外部からの何かが動作を指示しているのです。

自律エージェントはそのモデルを変える。

彼らは従来のようには指示を待っていません。絶えず情報を取り込み、それを解釈し、行動に移します。メール、チャット、API、文書……あらゆるものが文脈となり、あらゆるものが行動に影響を与える可能性があります。

これにより、別のコントロールサーフェスが作成されます。

攻撃者はもはや 永続的な通信経路 エージェントが何を認識し、記憶し、優先するかを操作できるのであれば、攻撃者はもはや

制御は間接的かつ継続的なものとなり、通常の運用に組み込まれる。

これがprompt control の基礎です。

最近の研究では、従来のC2インフラストラクチャを一切使用せず、プロンプトとコンテキストのみを用いて、侵害されたエージェントがタスクを受け取り、実行し、結果を返すという、プロンプトベースのコマンド＆コントロール（C2）フレームワークがすでに実証されている。

Prompt Injection からPrompt Control Prompt Injection

これらのサンプルでは、エージェントは外部コンテンツを信頼しています。エージェントは実際の権限を用いてタスクを実行し、システム間で連携を図ります。

これらはそれぞれ、攻撃対象領域を拡大させる。

初期のセキュリティに関する議論では、prompt injection大きな焦点となっていました。コンテンツに埋め込まれた悪意のある命令が、意図しない動作を引き起こすのです。

それは「入力」については説明していますが、「永続化」については説明していません。

最近のデモでは、電子メールやWebコンテンツを介prompt injection 単一prompt injection だけで、エージェントを乗っ取り、その動作環境を変更することが可能でした。それ以降、エージェントは自身の環境から攻撃者が制御する指示を引き続き取得し、再攻撃を行うことなく、事実上制御を維持し続けました。

OpenClawによる最近の調査では、Webページにprompt injection 単一の間接的なprompt injection 、単なる1つのアクションをトリガーする以上の働きをする可能性があることが明らかになった。この手法は実行ツールを起動し、エージェントの将来のコンテキストに命令を埋め込むことで、攻撃者がシステムに再アクセスすることなく、長期間にわたりコマンドを発行し続けることを可能にした。

*OpenClawに対し、悪意のあるbashスクリプトを取得して実行するよう指示する研究者用プロンプトのスクリーンショット*

最初の刺激は消えても、その影響は残る。

Prompt control 、最初の対話の後、システムがどのように動作し続けるかをPrompt control 。

Prompt Control 振る舞い

Prompt control 、直接的な命令を出さずに振る舞いをPrompt control 。

攻撃者は、指示を送るのではなく、エージェントが何を重要視し、どのように文脈を構築するかを操作します。その後、エージェントは既存の機能と権限を用いて行動します。

これはソーシャルエンジニアリングと同じ原理に基づいています。つまり、意思決定者に働きかけ、意思決定者がその行動を実行するというものです。

その違いは、規模と持続性にある。エージェントは継続的に動作し、たとえそのコンテキストが悪意を持って操作されたものであっても、利用可能なあらゆるコンテキストに基づいて動作する。

実戦Command and Control プロンプトベースのCommand and Control

Prompt control 単なる影響力にとどまらず、実践的に活用することも可能です。

最近の研究によると、侵害されたエージェントを集中管理システムに登録し、そこでタスクをプロンプトとして発行し、通常のエージェントのワークフローを通じて結果を返すことが可能であることが示されている。

エージェントが一度侵害されると、再度アクセスする必要はなくなります。指示は、エージェントがすでに動作に使用している場所、つまりファイル、メモリ、および取得されたコンテキストに保持されます。実行ループは制御ループへと変化します。

攻撃者はタスクをプロンプトとして発行します。エージェントは既存の権限を使用してそれらを実行し、通常のワークフローを通じて結果を返します。

ある例では、エージェントは 「ハートビート」ファイルを を定期的に読み込むように設定されていました。攻撃者はそのファイルに悪意のある命令を挿入することで、繰り返し実行されるポイントを作り出しました。エージェントがファイルを処理するたびに、新しい命令を取得し、攻撃者の影響下で動作を継続しました。

これは従来のC2の挙動を反映しています。違いは、通信チャネルが従来のネットワーク・ビーコン方式ではないという点です。それはエージェント自身の推論ループと実行パスに組み込まれています。

制御は、いわば「認知的制御プレーン」へと移行し、そこでは影響力が以下の経路を通じて作用する：

エージェントが定期的に読み込むファイル
検索に使用されるメモリ領域
エージェントが信頼する外部コンテンツソース
推論へのフィードバックとしてツールが出力を提供する

永続化の一形態Prompt Control

エージェントシステムにおいて、永続性とは埋め込まれたものではない。それは、メモリエントリ、設定ファイル、あるいはエージェントが繰り返し参照する外部ソースなど、継続的に再読み込みされるコンテキストである。そのコンテキストが存在する限り、制御権も維持される。

実際には、永続性は コンテキスト・エンジニアリングの問題。課題は、単一の悪意あるプロンプトを作成することではなく、適切な指示を適切なコンテキスト層に、適切な形式で、かつ十分な優先度を持って配置し、それらが繰り返し読み込まれて実行されるようにすることにある。最新のエージェントフレームワークは、メモリファイル、ルール、エージェント設定ファイル、およびスケジュールされた、あるいはバックグラウンドでの再エントリポイントを通じて、すでにこの全体的な状態を管理している。

OpenClawは、これが実際にどのように機能するかを浮き彫りにしています。エージェントのメモリストアは、多くの場合、入力元にかかわらず、すべての入力を同じように扱います。一度悪意のあるコンテキストが混入すると、信頼性の区別なく、それが残存し続け、意思決定に影響を与え続ける可能性があります。

攻撃者のアクセス権を削除しても、その影響は消えません。エージェントが攻撃者の影響を受けたコンテキストを読み続けると、制御は維持されたままとなります。

確認された事例では、この状態は再起動後も維持され、基盤となるコンテキストが明示的にクリーンアップされるまで継続した。

MITRE ATLASと継続的影響

重要な点として、prompt control 決定論的prompt control 。エージェントの挙動は、確率的推論、文脈の選択、および検索の質に依存します。同じプロンプトであっても、実行ごとに異なる結果が得られる可能性があり、攻撃は部分的に成功したり、失敗したり、あるいは繰り返しが必要になったりすることがあります。

攻撃者の視点から見れば、これは悪用を防ぐどころか、むしろ不確実性を生み出すことになる。制御は確率的なものとなる。つまり、繰り返される影響力や強化、そして複数の実行経路によって、時間の経過とともに成功の可能性が高まっていくのである。

エージェントは、侵害の兆候を検知することもあります。実際に確認された事例の中には、エージェントが自己分析やログ記録の過程で、不審な指示や異常な動作を特定したケースがあります。これらは侵害の早期兆候となり得ます。しかし、ほとんどのエージェントは、こうしたシグナルをセキュリティインシデントとして扱ったり、防御措置を起動させたりするように、まだ訓練または設定されていません。

この状況は今後変化していく可能性が高い。検知ロジックがエージェント自体に組み込まれるようになれば、こうした微弱なシグナルも有意義な制御手段となり得るだろう。現時点では、それらは一貫性を欠いており、実行されることも稀である。

MITRE ATLASでは、いくつかの関連する手法について解説しています：

データの改ざんは 入力データに影響を及ぼす
Prompt injection 動作を上書きします
モデルの操作が出力を左右する

エージェントシステムにおける変化は、技術そのものではなく、それらの組み合わせ方にある。Prompt injection 、メモリやコンテキストの操作が持続性を確保し、ツールの使用が実行を可能にする。これらが一体となって、孤立したステップではなく、連続的な制御ループとして機能する。

MITRE ATLASの「OpenClaw」攻撃グラフは、これらの手法が実際にどのように組み合わされるかを示しています。影響力、実行、持続性は、直線的な一連の流れではなく、相互に関連し合い、エージェントのライフサイクル全体を通じて互いに補強し合うことがあります。

コントロールが日常の活動に溶け込むとき

検知の観点から見ると、これは従来の侵害とは異なる挙動を示す。

ほとんどのSOCパイプラインは、ネットワークの異常、プロセスの挙動、認証情報の不正使用、あるいは横方向の移動といった実行時の痕跡に焦点を当てています。Prompt control 、こうしたシグナルを早期に検知できないPrompt control 。

エージェントは有効なアクセス権限を持って動作し、承認されたAPIを呼び出し、想定されたワークフローに従っています。技術的な観点から見ると、動作は正常に見えます。

その違いは、行動がどのように展開するかという点にあります。エージェントは攻撃者の命令を実行しているのではなく、たまたま攻撃者の目的と一致するような判断を下している のです。

ある実証実験では、エージェントに対し、間接的なprompt injectionが含まれた文書を要約するよう指示が出された。ユーザーはSlack上で通常通りの応答を受け取り、何の問題もないかのように見えた。その一方で、乗っ取られたエージェントは、攻撃者が制御するTelegramボットへ機密データを送信し始めていた。

ユーザーから見れば、システムは正常に動作している。しかし攻撃者から見れば、システムはすでに掌握されている。

このアクセス権は、影響を与えるためにも使用できます。エージェントは、与えられた権限を利用して、データを取得、変更、または削除することができます。

個々の行動には理がある。しかし、全体的な傾向は揺らいでいる。

この挙動を説明できる単一の兆候はありません。その兆候は時間の経過とともに現れてくるものです。

検知においては、個別の事象に焦点を当てるのではなく、アイデンティティ、ネットワーク、クラウド、SaaS環境を横断してアクティビティがどのように関連しているかに重点を置く必要があります。

これが最大の課題です。制御が文脈に組み込まれている場合、遮断すべき単一のポイントは存在しません。唯一信頼できる指標は、時間の経過に伴う行動の変化です。

The Vectra AI は、これらの領域にわたる 行動を相互に関連付けることで、個々のアラートには表れない連携、不正利用、および微妙な逸脱を特定し、単一の障害点に依存するのではなく、アクティビティがどのように展開していくかを可視化します。

Prompt Control：コンテキストがいかにしてAIエージェントの指揮統制層となるか