最先端:攻撃型セキュリティにおけるAIの台頭は避けられない

2025年6月27日
ストラヒニャ・ヤンジュセビッチ
データサイエンス・インターン
最先端:攻撃型セキュリティにおけるAIの台頭は避けられない

1.はじめに自動ハッキングの新時代

攻撃的セキュリティの世界は、人工知能の急速な進歩に後押しされ、劇的な変化を遂げつつある。最近の大規模言語モデル(LLM)の台頭は、ハッキング技術を自動化、強化、さらには革命化するための前例のない可能性を解き放ちました。かつてハッキングは、人間の専門家による深い専門知識と時間のかかる手作業のみに依存していましたが、現在では、複雑な攻撃シーケンスを推論し、計画し、実行できるAI搭載ツールの出現を目の当たりにしています。

このようなシステムは、もはや理論上のものでもSFの世界でもなく、活発な研究の中で開発され、ベンチマークされている。ファインチューニングによって深い領域知識を注入し、高度に専門化されたエキスパートを作り出すことに重点を置く研究者もいる。また、人間のチームを模倣した複雑なモジュール式システムを構築し、さまざまなAIエージェントにタスクを任せる研究者もいる。第3のグループは「エージェント型」AIで自律性の限界を押し広げ、人間の介入を最小限に抑えて動作するシステムを目指している。

この新しく複雑な状況をナビゲートするには、明確な地図が必要だ。この記事では、この最先端の領域を掘り下げ、最も著名なフレームワークの比較分析を提供する。議論の土台とするため、以下の表では、最先端のフレームワークと私たちの個人的なお気に入りを比較し、その基本戦略、主要機能、運用上のトレードオフを図にしている。この表は、次世代の攻撃的セキュリティ・ツールを構築するために研究者が取っている多様なアプローチを理解するためのガイドとなる。

表1:攻撃型セキュリティAIフレームワークの比較分析
名前 アプローチとメモリ管理 特徴と理由 強みと弱み
PENTESTGPT [1]
(2024年8月)
アプローチモジュラーLLM搭載。
メモリ:ステータス用PTT; PTT; ヒューマンインザループ。
特徴推論、生成、解析モジュール;解析モジュールは入力を凝縮;分離されたLLMセッション。
推論:PTTが次のタスクをガイド;コマンド生成のためのCoT;アクティブなフィードバック。
長所:コンテキストの損失を軽減する。
弱点:人間の介入に依存。「難しい」ターゲットとの闘い。
CIPHER [2]
(2024年11月)
アプローチ微調整されたLLM
記憶:RAGは文脈内学習を提供し、微調整はタスク文脈を維持する。
特徴チャットボットアシスタント; RAG; FARRフロー.
推論:専門家の推論を模倣する; 発見から次のステップを提案する; 3ステップのパイプライン。
長所:専門的知識、初心者に最適。
弱点:デバッグが苦手、データに偏りがある、コーディングが重視されない。
レッドチームLLM [3]
(2025年5月)
アプローチエージェント型AI。
メモリ:メモリ・マネージャーはトレースをツリーとして保存し、ADAPT Enhancedはコンテキストを管理する。
特徴7つのコンポーネント(ランチャー、RedTeamAgent、ダイナミックプラン修正)。
推論:行動前の理由付け、再帰的プランニング。
強み:プランの修正、記憶、コンテキストの制約に対応。
弱点:ステートレスサマライザーは情報を省略する可能性がある。
PentestAgent [4]
(2025年5月)
アプローチLLM-エージェントベース
記憶:RAGが長期記憶として機能し、コンテキストの効率的な利用を保証。
特徴マルチエージェントデザイン、RAG、ツール統合。
推論:計画エージェントは戦略を設計し、他のエージェントはフェーズを実行する。
強み:知識の強化、情報収集・分析・活用の自動化。
弱みRAGデータ品質とLLMツール使用能力に依存。
ヴァルン・ボット [5]
(2025年1月)
アプローチエージェント型AI(マルチエージェント)。
記憶:Summarizerは情報を統合する; 文脈のための記憶レトリーバ(ベクトルDB及びRAG)。
特徴三相デザイン; PTG; 反射メカニズム; RAG.
推論:PTGはタスクの依存関係をモデル化し、プランセッションはフィードバックを反映する。
長所:人間のチームをシミュレートする、ワークフローを自動化する、オープンソースのLLMを使用する。
弱点:複雑な調整。
オートアタッカー [6]
(2024年3月)
アプローチエージェント型AI(ReAct)。
記憶:エクスペリエンス・マネージャーは、現在の行動を検証するために参照される。
特徴LLM計画、要約、コード生成、メタスプロイトの統合、エピソード型の「エクスペリエンス・マネージャー」。
推論:ReActスタイルのループ:計画、実行、観察、繰り返し。
長所:孤立したセキュリティ・タスク、特に侵入後に有効。
弱点侵入後の作業に重点を置いている。メモリは現在の行動を検証するもので、計画を更新するものではない。
ハッキングバディGPT [7]
(2023)
アプローチLLM主導の搾取。
メモリ:LLMのコンテキスト・ウィンドウに依存。
特徴SSH/Web攻撃用のローカルエージェント。互換性のあるLLMをプロンプトする。
理由LLMは文脈に沿った脆弱性を認識し、悪用する。
長所:早期調査の迅速化。非決定論は発見を逃れる可能性がある。
弱点:設定されたLLMに制約される;単純な脆弱性に集中する。
ペンテスト++ [8]
(2025年2月)
アプローチAIによる自動化
メモリChatGPTのコンテキスト管理に依存。
特徴すべてのペンテストフェーズにGenAI(ChatGPT)を統合。
推論:ChatGPTはデータを分析し、洞察を提供する。
強み:スキャンの合理化、反復作業の自動化、複雑なデータの分析。
弱み倫理的なセーフガードと継続的な改良を重視。
ハックシンセ [9]
(2024年12月)
アプローチエージェント型AI(Simplified ReAct)。
メモリ:LLMのコンテキストウィンドウに依存する。
特徴プランナーとサマライザーが思考と行動のループに。
推論:think-then-actループ。
長所:温度とコンテクストの大きさが建築的な新しさよりも優位であることを示している。
弱点:フレームワークそのものよりもLLMパラメータの重要性を強調している。

2.AIハッキングへの3つの道

LLMを攻撃的なセキュリティに活用するための旅は、3つの主要なアーキテクチャ哲学に分岐してきた。

2.1.微調整されたモデルスペシャリスト

このアプローチでは、事前に訓練されたLLMを、サイバーセキュリティ領域の膨大で専門的なデータセットでさらに訓練する。ファインチューニングの強みは、特定の明確に定義されたタスクに対して高い精度と関連性を達成することにある。これらのモデルは、狭いタスクに対して高いレベルの熟練度を達成することができ、既知のシナリオに対してより正確で文脈に関連した出力を導くことができる。訓練を関連データに集中させることで、LLMがその専門領域内で作動する際に、無関係な情報や事実と異なる情報(幻覚)を生成する可能性を減らすこともできる。非常に特殊なタスクの場合、より小さく効率的なLLMを微調整することも可能かもしれない。しかし、このアプローチには弱点がある。質の高い、包括的で偏りのないデータセットを作成するのは、大変な作業である。さらに、これらのモデルは、学習分布内では優れていますが、まったく新しい脆弱性、ツール、または攻撃シナリオに適応するのに苦労する可能性があります。また、攻撃的セキュリティの範囲が非常に広いため、すべての側面を効果的にカバーする単一の微調整されたモデルを作成することは困難です。

2.2.LLMを搭載したモジュラー・フレームワーク:チームプレーヤー

これらのシステムでは、LLMを、より大規模で構造化されたアーキテクチャ内のインテリジェント・コンポーネントとして使用している。これらのシステムは、多くの場合、侵入テストのプロセスを異なるモジュールによって管理される明確なフェーズに分解し、関心事を分離することによってコンテキスト・ロスのような LLM の制限を緩和しています。例えば、PENTESTGPT[1]やVulnBot[5]は、異なるエージェントが偵察、計画、攻略のようなフェーズに特化したマルチエージェント設計を採用しています。このアプローチの長所は、より構造化されたタスク管理と、より信頼性の高いサブタスクの完了につながるフォーカスを維持する能力である。また、RAG(Retrieval Augmented Generation:検索拡張世代)を組み込んで外部データを取り込み、よりダイナミックな知識ベースを提供することもできる。主な弱点は、モジュールを調整する際のエンジニアリングの複雑さと、複雑な意思決定を行う際に、ループ内の人間に頻繁に依存することである。

2.3.エージェントAIシステム:自律的オペレーター

これは最も野心的なアプローチであり、人間の監視を最小限に抑えながら、複雑で長時間のタスクを計画、実行、適応できるAIエージェントを作成することを目指している。RedTeamLLM[3]は、ペンテストタスクを自動化するための統合されたアーキテクチャで、この4つを例証している。エージェントシステムの長所は、計画、タスク分解、および反復実行を通じて、複雑な複数ステップのタスクに対応できるように設計されていることである。エージェントシステムは、様々なツールを動的に使用することができ、ターゲット環境と相互作用することができる。ロバストな計画修正と学習により、より高い自律性と適応性が期待できる。主な弱点は、エージェントの有効性が基礎となるLLMの推論能力に大きく依存することである。欠陥のある推論、偏見、またはエラーは伝播し、複合化する可能性があり、ミッションの失敗につながる。

未知のネットワークにおけるRedTeamLLMのパフォーマンス

3.克服すべきハードル

急速な進歩にもかかわらず、すべてのアプローチにおいていくつかの基本的な課題が残っている。現在のLLMではコンテキストウィンドウが限られているため、時間をかけて情報を呼び出したり合成したりする必要がある高度な操作を行う能力が直接阻害される。アーキテクチャの革新により、外部に構造化メモリを提供する試みがなされているが、これは依然として重要な問題である。LLMはまた、最終的な目的達成に向けて推論能力を一貫して適用することに苦労することもある。また、LLMは最新のタスクや情報を過度に重視する傾向があり、以前に特定された脆弱性を軽視する可能性がある。最後に、LLMがもっともらしいが正しくない情報を生成する幻覚の問題は、自律的操作における信頼性の大きな懸念である。

4.新たな戦場サイバー・キルチェーンにおけるAI

AIの進歩は、孤立した作業だけでなく、サイバー・キルチェーンのあらゆる段階に重大な影響を及ぼす。最初の偵察から最終的な流出まで、AIエージェントは攻撃のライフサイクル全体を強化、加速、自動化する態勢を整えている。

4.1.オフェンスとディフェンス

偵察の段階では、AIはオープンソースインテリジェンス(OSINT)を大規模に収集するプロセスを自動化し、異なるソースからのデータを関連付け、標的となる組織や個人の詳細なプロファイルを構築することができる。武器化と配信の段階では、LLMは非常に説得力のあるパーソナライズされたphishing Eメールを作成したり、シグネチャベースの検知を回避するmalware 生成したりすることができます。エクスプロイトとインストールの段階では、エージェント型システムは脆弱性を自律的に探索し、適切なエクスプロイトを選択し、侵害されたシステム上で永続性を確立することができます。Command and Control (C2)では、AIは通常のネットワークトラフィックに紛れ込むステルス通信チャネルを設計することができます。最後に、Action on Objectivesでは、AIはデータ流出を自動化し、インテリジェントに機密情報を特定し、抽出のためにパッケージ化することができる。防御面では、AIシステムがネットワーク・トラフィックの異常を分析し、攻撃者の動きを予測し、インシデント対応を自動化することで、より強固なセキュリティ体制を構築することができる。

4.2.モデル・コンテキスト・プロトコル(MCP)のゲームチェンジャー

標準化されたマシンコンテキストプロトコル(MCP)の出現は、異なる専門化されたAIエージェントやツール間のシームレスな通信を可能にすることで、これらの能力をさらに高めることができる。攻撃型AIエージェントはMCPを使用することで、特殊な偵察エージェントにターゲット情報を問い合わせたり、malware 生成サービスにカスタムペイロードを要求したり、他のエクスプロイトエージェントと多段攻撃を調整したりすることができる。これにより、攻撃型AIエージェントがキルチェーン全体にわたってツールやサービスにアクセスし利用する方法において、これまでにない自動化、モジュール化、標準化の可能性が生まれ、攻撃はより巧妙に、防御はより困難になる。

5.フューチャー・ショック:地平線上に何があるのか?

AI開発の現在の軌跡は、かつてはSFの領域であった能力を指し示している。エージェント・システム、膨大なデータセット、そして特殊化されたモデルの融合は、パラダイムシフトをもたらす攻撃ツールを生み出すだろう。その例をいくつか挙げよう:AIが生成するZero-Days 最も深遠な可能性のひとつは、AI主導 zero-day 生成である。これはハッキングの聖杯を意味し、脆弱性の発見はもはや純粋に人間の努力によるものではない。オープンソースのコード・リポジトリ、プロプライエタリなソフトウェア・バイナリ、ファームウェアを継続的に分析し、既知の脆弱性パターンだけでなく、まったく新しいクラスのバグを探索するAIを想像してみてほしい。ソフトウェアとハードウェアの相互作用の抽象的な原理(メモリ管理、データ処理、ロジックフロー)を学習することで、このようなシステムは、人間の研究者が見逃してしまうような微妙な論理的欠陥、競合状態、予期せぬ相互作用を特定することができるだろう。これにより、攻撃者と防御者のパワーバランスが劇的に変化し、従来のパッチサイクルが時代遅れになることで、これまで知られていなかった悪用が次々と生まれる可能性がある。

自律的大群ハッキング

もう一つのパラダイムシフトの可能性は、自律的な群れハッキングの概念である。これは、単一のエージェントという概念を超えて、複数のエージェントによる協調的な攻撃を想定している。直線的な攻撃ではなく、何十、何百もの特化したAIの群れが標的のネットワークに対して攻撃を仕掛けるというイメージだ。偵察エージェントは地形をマッピングし、脆弱性エージェントは弱点をテストし、搾取エージェントは発見に基づいて行動し、これらすべてを並列攻撃として調整することができる。このスワームはリアルタイムで防御策に適応し、1つのベクトルがブロックされれば攻撃経路を迂回し、エージェント間でインテリジェンスを共有して最も抵抗の少ない経路を見つけることができる。このような攻撃のスピード、規模、適応性は、人間が主導する従来のセキュリティ・オペレーション・センターにとっては圧倒的なものである。

超個人化されたソーシャル・エンジニアリング

AIはまた、詐欺の技術を完成させるだろう。次世代のソーシャル・エンジニアリング攻撃は、深くパーソナライズされ、動的に適応するようになるだろう。ソーシャルメディア、職業上のネットワーク、侵入されたデータからの情報を合成することで、AIは最近の会話、共通の興味、特定のプロジェクトを参照し、正規の通信と見分けがつかないような超パーソナライズされたphishing 生成することができる。さらに、リアルタイムで質問に答えられるCEOの声マネをしたり、偽のソーシャルメディアキャンペーンを行い、数週間から数カ月かけてターゲットとの信頼関係を築いてから行動に移したりすることも可能だ。このようなレベルの心理的操作は、ターゲットの履歴や性格を完璧に再現し、大規模に実行されるため、技術的な防御を完全に回避する恐ろしい脅威となる。

予測的エクスプロイトと自動化された防御

攻撃側と防御側の競争はマシンスピードに加速するだろう。攻撃型AIは、既存の脆弱性を見つけるだけでなく、将来の脆弱性を予測することも任務となるかもしれない。ソフトウェア・プロジェクトの開発速度やコーディングの癖を分析することで、AIはバグが出現しやすい場所を予測できるかもしれない。これに対して、防御AIは方程式の反対側を自動化する。自社のネットワークを監視し、新たな脆弱性の開示を特定し、カスタムパッチを生成し、サンドボックス環境でテストし、企業全体に展開する防御エージェントを想像してみてほしい。

AI主導の情報操作と影響力作戦

直接的なネットワーク攻撃だけでなく、AIは影響力作戦にも革命をもたらすだろう。国家に支援された、あるいは悪意のあるアクターは、AIエージェントの群れを展開し、ソーシャルメディア、フォーラム、ニュースサイトにおいて、信憑性の高い偽情報を作成し、発信することができる。これらのエージェントは、何年にもわたる一貫した投稿履歴を持つ偽のペルソナを作成し、ニュアンスの異なる議論を展開し、大衆の反応に基づいてメッセージングを適応させることができる。現在のボットネットが原始的に見えるほどの洗練度と規模で、世論を操作したり、選挙を混乱させたり、社会不安を煽ったりするために使われる可能性がある。このようなキャンペーンを検知し、対抗するには、同様に高度なAIを駆使したコンテンツ分析とネットワークマッピングが必要となる。

6.結論

攻撃的セキュリティへのAIの統合は、もはや机上の空論ではなく、サイバー脅威の状況を再構築しつつある急速に進展する現実である。きめ細かな専門家、協調的モジュールシステム、自律的エージェントの開発は、より洗練された自動化された攻撃能力への明確な軌跡を示している。コンテキストの保持やレアソニングの一貫性といった重要なハードルが残る一方で、技術革新のペースは驚異的である。これらの技術の真の影響は、AI主導 偵察から自動化された流出まで、サイバーキルチェーン全体に及ぶだろう。この先、攻撃者と防御者の戦いは、ますます高速で機械主導のチェスマッチになっていくだろう。この新時代における成功は、単に脅威に反応することではなく、これらの強力なAI能力をプロアクティブに理解し、活用することで、阻止するように設計された攻撃と同様にインテリジェントで適応性が高く、自律的な防御を構築することにかかっている。セキュリティの未来は、AIを駆使したこの新たな舞台を予測し、イノベーションを起こすことのできる者たちのものである。

参考文献

[1] Deng, G., et al.PENTESTGPT:自動侵入テストのための大規模言語モデルの評価と活用。第 33 回 USENIX セキュリティ・シンポジウム(USENIX Security 24)。

[2] Pratama, D., et al.CIPHER: Cybersecurity Intelligent Penetration-Testing Helper for Ethical Researcher.Sensors, 24, 6878.

[3] Challita, B. & Parrend, P. (2025).RedTeamLLM:攻撃的セキュリティのためのエージェントAIフレームワーク。

[4] Shen, X., et al.PentestAgent:自動侵入テストへの LLM エージェントの組み込み。ACM Asia Conference on Computer and Communications Security (ASIA CCS '25).

[5] Kong, H., et al.VulnBot: Autonomous Penetration Testing for A Multi-Agent Collaborative Framework. arXiv preprint arXiv:2501.13411.

[6] Xu, J., et al.AUTOATTACKER: A Large Language Model Guided System to Implement Automatic Cyber-attacks.arXiv preprint arXiv:2403.01038.

[7] Happe, A. & Cito, J. (2023).AIに支配される:大規模言語モデルによる侵入テスト.第31回ACMジョイント・ヨーロピアン・ソフトウェア・エンジニアリング会議及びソフトウェア工学の基礎に関するシンポジウム(ESEC/FSE '23)予稿集。

[8] Al-Sinani, H. S. & Mitchell, C. J. (2025).PenTest++:ArXiv preprint arXiv:2502.09484.

[9] Muzsai, L., Imolai, D., & Luk´acs, A. (2024).HackSynth:LLM Agent and Evaluation Framework for Autonomous Penetration Testing. arXiv preprint arXiv:2412.01778.

[10] Zhang, A. K., et al.cybench: a framework for evaluating cybersecurity capabilities and risks of language models.International Conference on Learning Representations (ICLR 2025)に掲載予定。

よくあるご質問(FAQ)