近年、機械学習や人工知能(AI)の研究が爆発的に発展しているにもかかわらず、すべてのケースで最適に機能する唯一の手法やアルゴリズムは存在しない。実際、この概念は公式化され、No Free Lunch の定理として知られる結果で数学的に示されている (Wolpert and Macready 1997) 。
特に、空間や時間の複雑さ、学習データの利用可能性など、現実世界におけるさまざまな制約の下で考えた場合、単一のアルゴリズムが、あらゆる可能性のある問題空間において、他のすべてのアルゴリズムを凌駕することはない。
検知 そのため、高度なサイバーセキュリティの脅威を検知するために設計されたAIシステムは、導入される特定の問題に合わせたものでなければならず、検知のトリガーとなるように設計されたタイプについて、利用可能な最善のツールとアルゴリズムを利用する必要がある。
他の領域と同様、サイバーセキュリティにおけるAIシステムは、以下の基準で検証されなければならない:
- AIシステムは、人間だけでは検知、クラスター化、分類、予測できなかったことを検知、クラスター化、分類、予測できるのか?
- AIシステムは、必要な人間の介入や分析の量を減らすような予測や分類を行っているか?人間の介入や分析を増やすような予測や分類を行っているか?
この2つの目標を同時に達成するための学習が可能なAIシステムを設計するには、問題空間に対する深い理解と、機械学習アルゴリズム全般に対する幅広い理解が必要である。現代のネットワークに存在する無数のセキュリティ脅威や侵入を一律に学習するモノリシックなソリューションを使おうとしても、前者の目標には及ばないだろう。
同様に、複数の技術やアルゴリズムを使用して各タイプの脅威を個別に検知するには、各アルゴリズムがどのように機能し、どのような点で不足する可能性があるかについての複雑な知識が必要です。アルゴリズムに関する不完全な知識は、脅威を検知するシステムの能力に劣るパフォーマンスや、誤検知のためにネットワーク管理者に生じる作業量という非常に現実的な可能性につながります。
問題の範囲
今日のサイバーセキュリティの脅威は多岐にわたるため、サイバー攻撃の検知を自動化するAIソリューションを開発するチームにとっては、多くのアルゴリズムが武器となるはずだ。これには、時系列分析、NLP、統計、ニューラルネットワーク、線形代数、トポロジーなどの技術が含まれる。とはいえ、アルゴリズムについて最初に決定しなければならないのは、教師ありの方法で予測を行うよう学習すべきか、教師なしの方法で予測を行うべきか、ということである。
アルゴリズムが入力とラベルの対応付けを学習できるような、ラベル付きデータのデータセットは存在するのだろうか?それともアルゴリズムは、ラベルを使用せずに教師なしで、どの入力が悪意があり、どれがそうでないかを学習する必要があるのか?ラベル付きデータセットが存在する場合、それはアルゴリズムが設計しようとしているアタックサーフェスを十分に代表しているか?そのデータは、システムが本番稼動したときに観測されるネットワーク、デバイス、ユーザー、接続タイプの空間をカバーする分布から抽出されているか?これらの基準が成り立つとしても、代わりにクラス・ラベルを完全に無視する教師なし学習法を好む理由はあるのだろうか?
例えば、ドメイン生成アルゴリズム(DGA)の場合、感染したホストは、単にドメイ ンをブラックリストに載せることを避けるために、ランダムに生成されたドメイン名を持つドメイ ンに接続を行うが、いくつかの大規模なデータセットには、既知の正常なドメイン(下表ではク ラス0とラベル付け)と既知のDGAドメイン(クラス1)の例が含まれている。ラベル付けされた訓練セットは、ドメイン名とクラス(正常対DGA、0対1)の間の機能的なマッピングを学習するために使用することができる。また、教師なし手法を使用することも可能で、正常なドメインの基本的な統計量を学習することができ、「普通」でないものはDGAによって生成されたものとしてラベル付けされる。
教師なし学習の使用は、問題のデータセットが古かったり誤りを含んでいたりする場合に有利に働く可能性がある。攻撃者が検知を避けるためにDGAを適応させるためのトレーニングセットに関する予備知識を持っている場合は、さらに不利になる可能性がある。
ノーマル・ドメイン(クラス・ラベル0)
DGAドメイン(クラスラベル1)
tmwqfxrmb.ac
pkmeprkwtxigpnjshcsddhkgn.in
ライトテック
nawntgvcbixvwh.net
urban-research.jp
このような判断を下すには、検討中の攻撃を理解する必要がある。また、新しい未知のデータへの汎化を可能にしながら、特定のデータセットへのオーバーフィットを定量化するモデルのトレーニング、テスト、検証のための適切な技術を知ることも必要である。