SOCのAIは実際に考えることができるのか?Vectra AI MCPサーバーによるLLMの評価

2025年11月4日
Fabien Guillot
Vectra AI テクニカルマーケティング部長
SOCのAIは実際に考えることができるのか?Vectra AI MCPサーバーによるLLMの評価

誰かが"ChatGPTをSOCに接続しよう"と言うと、みんなが "うんうん "とうなずきますよね。ええ、この記事はその瞬間の後に起こることについてです。

というのも、かっこよく聞こえるかもしれないが、SOCにGENAIを追加するのは魔法ではないからだ。面倒だ。データを大量に必要とする。そして、ボンネットの下で実際に起こっていることを測定しなければ、混乱を自動化してしまうかもしれない。

そこで...計測することにした。

SOCにおけるGenAI:クールなアイデア、困難な現実

AIは今、セキュリティー業界のいたるところに存在している。

どのSOCのスライドデッキにも、どこかに大きな「GenAIアシスタント」の泡がある。しかし、実際のSOCワークフローに直面したとき、それらのアシスタントが実際にどのように機能するか、それが本当のテストだ。

Vectra MCPサーバーは、すべてのAIエージェントのための航空管制官です。

LLM(ChatGPTやClaudeなど)とセキュリティ・ツール(およびそのデータ!)、この場合はVectra AIを接続する。

MCPは、エンリッチメント、相関、コンテクスト、コンテクストをオーケストレーションし、AIエージェントがダッシュボードで迷うことなく、重要なシグナルと直接対話できるようにする。

そして、すべての人にこれらの機能を活用し、体験してほしいという思いから、Vectra AIワークフローに接続できる2つのMCPサーバーをリリースしました。

LLMをセキュリティ・スタックに接続して、何が起こるか見てみたい」とお考えなら、今すぐそれが可能です。ライセンスの手続きもNDAも必要なく、ただ接続して遊ぶだけです。

Vectra AIでは、GenAI+MCPがSOCの運営方法を根本的に変えると純粋に信じている。

これは "いつか "の話ではなく、すでに起こっていることであり、Vectra AIのユーザーがこの変化を活用できるよう、私たちは万全の体制を整えている。

それが、私たちが顧客、見込み客、パートナーとの対話に多くの時間を費やしている理由でもあります。これらのテクノロジーの進歩の速さを理解し、ライブSOCにおける「LLM対応」の本当の意味を理解するためです。

そこで...計測することにした。

なぜなら、GenAIがセキュリティ・オペレーションを再構築するのであれば、我々のプラットフォーム、データ、MCP統合が新しい世界にシームレスにプラグインできることを絶対に確認する必要があるからです。有効性の測定は、サイドプロジェクトではありません。

より多くのデータが必要なのではなく、より良いデータが必要なのだ

単刀直入に言えば、優れたデータのないGenAIは、シャーロック・ホームズを雇って目隠しをさせるようなものだ。

Vectra AIでは、データが差別化要因である。その特別な理由は2つある:

  1. AIベースの検知: 異常ではなく、攻撃者の行動に関する長年の研究に基づいて構築されています。攻撃者がツールを変更しても効果が持続するように設計されています。各検出は、静的なインジケータではなく、意図と行動に焦点を当てているため、SOCチームは、彼らが見ているものが本物であり、適切であるという確信を得ることができます。
  1. 充実したネットワーク・メタデータ:ハイブリッド環境にまたがるハイコンテクストな遠隔測定は、構造化され相関があるため、機械可読で即座に実行可能。

それがGenAIが実際に使えるデータだ。それをLLMに与えると、熟練したアナリストのように推論を始める。生のログを与えれば、DNSについて非常に自信に満ちた幻覚を見るだろう。

では、AIアナリストをどう評価するのか?

結局のところ、"悪者を早く見つけてくれ "と頼むだけではダメなのだ。

その理由を測定する必要がある。そして、MCPでAIエージェントを扱う場合、あなたが影響を与えることができるのは主に3つです:

  1. モデル(GPT-5、クロード、ディープシークなど)
  1. プロンプト(どのように行動するように指示するか-トーン、構成、目標)
  1. MCPそのもの(検知スタックへの接続方法)

そのどれもが、パフォーマンスの針を動かす可能性がある。

プロンプトを少し変えると、突然、"自信満々 "のAIアナリストが "PowerShell "の綴りを忘れてしまう。

モデルを変えると、レイテンシは2倍になる。

MCPの統合を変更すれば、文脈の半分が消えてしまう。

自動化された評価、実際のSOCシナリオ、そして残酷なまでの正直さ。

テストベッド(別名 "実際にやってみた")

最初の実行では、意図的にシンプルにした。Tier-1タスク、軽い推論(最大2ホップ)、派手なマルチエージェントの振り付けはなし。

スタックはこんな感じだった:

  • n8n迅速なプロトタイピングと自動化のために
  • 最小限のSOCプロンプト(基本的には、「あなたはAIアナリストです。 知らないならそう言ってください。)

しかし、これはおもちゃの実験ではない。私たちは、アナリストが実際に毎日直面しているような、28の実際のSOCタスクをテストしたのだ。以下のようなものだ:

  • 高ステータスまたはクリティカルステータスのホストのリスト
  • 特定のエンドポイント(piper-desktop、deacon-desktopなど)の検出をプルする。
  • IPまたはドメインに結びついたコマンド・アンド・コントロール検出のチェック
  • 1GB以上の流出を発見
  • ホスト・アーティファクトのタグ付けと削除
  • ハイ」または「クリティカル」なリスク象限にある口座を調べる
  • EntraID操作に関与する「管理者」アカウントのハンティング
  • 特定のJA3フィンガープリントによる検出の照会
  • アナリストをホストまたは検出に割り当てる

基本的に、Tier-1またはTier-2のSOCアナリストが忙しい火曜日の朝に触れるものすべてである。

各走行は、正しさ、スピード、トークンの使用状況、道具の使用状況について採点され、すべて1~5段階で評価された。

優れたGenAIエージェントとは?

SOC内でのGenAIの評価は、どのモデルがより賢く聞こえるかということではない。いかに効率的に考え、行動し、学習するかということだ。優れたAIエージェントは、鋭いアナリストのように振る舞います - 正しい答えを得るだけでなく、効率的にそこに到達します。何を見るべきか

  1. 効率的なトークンの使用。推論に必要な語数は少ないほどよい。長ったらしいモデルは計算とコンテキストのスペースを浪費する。
  1. スマートなツールコール。モデルが同じ道具を何度も呼び続けるのは、基本的に "もう一度やらせてください "と言っているのだ。最良のモデルは、いつ、どのようにツールを使うかを理解している-試行錯誤を最小限に抑え、最大限の精度で。
  1. だらしなさのないスピード。 速いことは良いことだが、それは正確さが保たれている場合に限られる。理想的なモデルは、反応の良さと推理の深さのバランスが取れている。

要するに、最高のAIアナリストはただ話すだけでなく、効率的に考えるのだ。

以下がその結果である:

ハイライトと実践的な要点

  • GPT-5は 正確さと推理の深さでは勝るが、スピードが遅く価格も高い。スピードよりも正確さが重要な場合に使用する。
  • クロード・ソネット4.5は、精度、スピード、効率という総合的なバランスで最高を実現。プロダクションSOCに最適です。
  • Claude Haiku 4.5は、迅速なトリアージに最適である。迅速で、安価で、第一線の決定には「十分」である。
  • Deepseek 3.1はバリュー・チャンピオンです:わずかなコストで素晴らしいパフォーマンス。
  • Grok Code Fast 1はツールを多用するワークフロー(自動化、エンリッチメントなど)に適しているが、トークン代には注意が必要だ。
  • GPT-4.1は...次のシフトには呼ばれないと言っておこう。

そして、良い記事には必ずグラフが必要だからだ:

正誤スコアの比較

技術的にはGPT-5が4.32/5で勝者だが、正直なところ?クロード・ソネット4.5とディープシーク3.1は基本的に4.11で同点であり、おそらくその差に気づくことはないだろう。本当の筋書きは?GPT 4.1が2.61/5で絶対的に不利だ。うわっ。セキュリティ関連には使わない方がいい。

実行時間

Claude Haiku 4.5は 、これらのクエリーを38秒で飛ばしている。一方GPT-5は93秒と、文字通り2.5倍も遅い。セキュリティ・インシデントが発生する可能性がある場合、この数秒が永遠に感じられる。Haikuはそれをやってのける。

バリュー・プロポジション・マトリックス

バブルが大きい=使用したトークンの数が少ない。GPT4.1のバブルは巨大だが、それはフレックスではない。テストに落ちたのに「超高速でテストを終えました」と言うようなものだ。安かろう悪かろうは価値提案ではなく、ただ...間違っている。実際に欲しいモデルは上にある:Deepseek 3.1(効率的かつ正確)、Claude Sonnet 4.5(バランスの取れた野獣)、Grok Code Fast(堅実なオールラウンド)。GPT-5のマイクロバブルは、それが高価なオプションであることを証明している。

では、何を学んだのか?

  1. 精度がすべてではない。精度は少し高いが、2倍の時間がかかり、5倍のトークンを消費するモデルは、最良の選択肢ではないかもしれない。SOCでは、効率やスケールも精度の一部なのだ。
  1. ツールの使用は推論への窓である。「もしLLMが簡単な質問に答えるのに10回もツールを呼び出す必要があるなら、それは徹底していない。最も成績の良いモデルは、単に答えを正しく導き出すだけでなく、MCPを通じて1つか2つのスマートなクエリーを使い、効率的に答えを導き出した。ツールの使用は量の問題ではなく、モデルがいかに素早く正しい道を見つけ出すかということなのだ。LLMが非難されるとは限らない。優れたMCPサーバーは、最適なツール呼び出しに不可欠なのだ。しかし、MCPの評価については、またの機会にしましょう。
  1. プロンプトのデザインは過小評価されている。ほんの些細な文言の調整で、精度や幻覚率が大きく変動することがある。私たちは、将来のチューニングのためのベースラインとして、あえてプロンプトを最小限にとどめたが、小さなデザインの選択が大きな効果をもたらすことは明らかである。

まとめ(そしてちょっとした現実確認)

つまり、どのモデルが美人コンテストで優勝するかということではないのだ。確かに、GPT-5はある指標でクロードに勝っているかもしれないが、それは的外れだ。

真の教訓は、AIエージェントの評価はオプションではないということだ。
アラートのトリアージ、インシデントの要約、あるいは封じ込めアクションの呼び出しなど、SOC内部でGenAIに頼るつもりなら、それがどのように振る舞い、どこで失敗し、時間とともにどのように進化するかを知る必要がある。

評価のないAIは、説明責任のない自動化にすぎない。

そして同様に重要なのは、セキュリティ・ツールがLLMを話す必要があるということだ。

それは、構造化されたデータ、クリーンなAPI、そしてダッシュボードやベンダーのサイロに閉じ込められない機械可読のコンテキストを意味する。世界で最も先進的なモデルも、中途半端に壊れたテレメトリーが供給されれば、推論することはできない。

だからこそVectra AIでは、我々のプラットフォーム、そしてMCPサーバーがLLMに対応した設計になっていることにこだわっている私たちが生成するシグナルは、人間のためだけのものではなく、推論し、豊かにし、行動できるAIエージェントによって、機械によって消費されるように構築されているのです。

セキュリティ運用の次の波では、AIを使うだけでは不十分で、エコシステム全体がAIに対応していなければならないからだ。

未来のSOCはAIを搭載しているだけではない。AIによって測定され、AIによって接続され、AIに対応する。  

よくあるご質問(FAQ)