サイバーセキュリティにおける敵対的AIの短期的・長期的方向性

2018年9月12日
Sohrob Kazerounian
Distinguished AI Researcher
サイバーセキュリティにおける敵対的AIの短期的・長期的方向性

ここ数年、人工知能(AI)が猛烈なスピードで進歩し、さまざまな分野に変革的な影響を及ぼし始めている。サイバー攻撃が憂慮すべき頻度と規模で発生する、ますます(相互に)接続された世界と相まって、サイバーセキュリティの分野が、検知 、敵対者から防御するために、AIと機械学習(ML)に目を向けるようになったのも不思議ではない。

サイバーセキュリティにおけるAIの活用は、一人のセキュリティ専門家が監視できる範囲を広げるだけでなく、重要なのは、人間でなければ発見できなかった攻撃を発見できるようになることだ。AIが防御目的で使用されることがほぼ必然であったように、AIシステムが攻撃目的で使用される日も近いことは否定できない。

AI 人工知能の説明 - パート8

ここでは、AIの歴史と現状を踏まえ、こうした敵対的なAIの応用が近い将来、そして長期的にたどりそうな軌跡を概説する6。

即時応募

AI、特にディープラーニングの開発には、ハッカーによって悪意のある目的に改変される可能性のある特定の用途がある分野が数多くある。

例えば、自然言語処理の最先端技術の多くは、自然言語の処理、分類、生成、さらには翻訳を行うために、LSTMとして知られるリカレント・ニューラル・ネットワークの一種を利用している。音声やテキストのデータセットで学習させたLSTM言語モデルは、学習させたテキストと同じ音声や方法で新しい文章を生成することができる。トランプの声でツイートを生成することを学習したこのモデルは、この使い方の一例である:

このようなモデルは、ハッカーの武器庫にある多くのツールの1つとして、容易に活用することができる。例えば、マルウェアのさまざまなファミリーは、ドメイン生成アルゴリズム(DGA)を利用して、感染したマシンがコマンド&コントロールサーバーにアクセスできるように、ランデブーポイントとして新しいドメインをランダムに構築する。もしドメインがハードコードされていれば、ネットワーク管理者が悪意のあるドメインをブラックリストに登録するのは簡単なことだ。

ランダムに生成されたドメイン(nawntgvcbixvwh.netを例とする)は、人間が登録するような種類のドメインとはかなり異なって見えるため、通常のドメインとDGAドメインを検知できるモデルを作成するのは比較的簡単である。しかし、通常のドメイン名で訓練されたLSTMモデルは、人間が選ぶようなものと見分けがつかない偽ドメインを簡単に構築することができる。

LSTMを使用することが多い)モデルのもう一つのクラスは、sequence-to-sequence(seq2seq)モデルとして知られている。seq2seqモデルは、現在翻訳の分野で最先端のモデルであり、あるドメインや言語のシーケンス(例えば英語の文)を入力とし、別のドメインや言語のシーケンス(例えばフランス語の文)を出力として生成する。

しかし、これらのモデルは、コードのエラーやセキュリティーホールを発見するプロセスを自動化する、ファジングと呼ばれる技法にも使うことができます(https://arxiv.org/pdf/1701.07232.pdf)。これらの技法によって発見されたセキュリティホールは、しばしば、バッファオーバーフローやSQLインジェクションなどにつながり、攻撃者にシステ ムの完全な制御を許してしまいます。

PDFオブジェクトを生成する配列間RNNモデル

一般的に、AIやMLが最も即座に適用可能な分野は、たまたま範囲が限定されており、システムを利用する人間の攻撃者と連携してのみ機能する。応用分野は、(ファジングのケースのように)さまざまな種類のタスクの自動化をスピードアップするか、(DGAのケースのように)人間のパフォーマンスや行動を模倣することに限定される可能性が高い。

短期的なアプリケーション

整形されたPDF文書の抜粋。

今後数年でAIが発展するにつれて、生成的敵対ネットワーク(GAN)のような最近開発されたばかりの技術が、攻撃の可能性の幅を広げ始めるだろう。

興味深いことに、GANはまず、既存のディープラーニング手法に対する敵対的攻撃、つまり、そうでなければ人間には見分けがつかないが、ニューラルネットワークを最大限に混乱させるような入力への単純な変更に注目することで動機づけられた。Goodfellow et al., (2014)[https://arxiv.org/abs/1412.6572]から次の例を挙げよう:

パンダの画像にわずかなノイズを加えると、ほとんどの人間には元の画像と見分けがつかないパンダの画像になる

パンダの画像(上図の式の左側)にわずかなノイズを加えると、ほとんどの人間には元の画像と見分けがつかないパンダの画像(上図の右側)になる。とはいえ、このわずかな追加によって、画像中の物体を認識するように訓練されたニューラルネットワークの予測は、"パンダ "から "テナガザル "に変わってしまう。より最近の例では、たった1ピクセルの変更で同様の混乱を引き起こすことができた(https://arxiv.org/abs/1710.08864v2)

提案アルゴリズムで作成され、ターゲットDNNを欺くことに成功した1ピクセル攻撃。

この種の攻撃は、AIやMLが私たちの日常生活に入り込むにつれて、より広まるだろう。上記の例で攻撃されたようなディープ・ニューラル・ネットワークは、ドライバーレス・カーや顔認識(米国に入国する際に国境警備を通過する際のカメラを思い浮かべてほしい)などを司るビジョン・システムの中核となっている。

自動化されたAIソリューションに依存するシステムが増えるにつれて、上に示したような敵対的な攻撃はますます悪意のある行動に使われるようになるだろう。

GANはもともと敵対的攻撃によって動機づけられたものだが、それ自体も興味深い。GANは、出力を生成することを仕事とするジェネレーター・ネットワークと、入力がジェネレーターによって生成されたものなのか、それとも実際のデータセットから引き出されたものなのかを判別することを仕事とする識別器ネットワークの間で競合する結合ニューラルネットワークである。

驚くべきことに、ネットワーク間で繰り広げられるゲーム理論的な行き来は、驚くほどリアルな出力を生成するジェネレーターをもたらす。これは特に画像の領域で顕著で、GANは超リアルな画像(例えば、実在しない有名人の顔http://research.nvidia.com/publication/2017-10_Progressive-Growing-of)を作成し始めているが、現在では自然言語の生成にも使われている。

これらのモデルは、特定の目標やタスクを達成するために、他人の声やコードでリアルな人間の音声を生成できるようになるだろう。おそらく、本物と見分けがつかない出力を生成することで、システムや人間を欺くために使われ始めるだろう。

CELEBA-HQデータセットを用いて生成された1024×1024の画像。

長期的な方向性

長期的には、敵対的または悪意のある設定におけるAIの利用は、強化学習(RL)の分野にますますシフトしていくと予想される。これまで議論されてきたモデルとは異なり、RLはAIエージェントが入力を処理するだけでなく、環境そのものに影響を与える可能性のある方法で、入力にレスポンスして意思決定を行うことを可能にする。

意思決定や行動の能力がなければ、AIエージェントは事実上、入力処理しかできない。

環境や入力状態を観察し、それに対してレスポンス 、行動を起こす能力は、ジャン・ピアジェが人間における「行動-知覚のループ」と呼んだものを閉じる。決断し行動する能力がなければ、AIエージェントは事実上入力処理しかできない。RLは、現代のゲームプレイをするAI(例えば、https://deepmind.com/research/publications/playing-atari-deep-reinforcement-learning/)を作ったものであり、AIシステムが世界最高の囲碁棋士(https://deepmind.com/blog/alphago-zero-learning-scratch/)を打ち負かすことにつながったものである。

要するに、RLはエージェントが何らかの目標を達成したときにプラスの報酬を与え、失敗したときにマイナスの報酬を与えることで機能する。報酬は、肯定的な報酬につながりそうな反応行動をとる可能性を高め、否定的な報酬につながりそうな行動を抑制する。

自律的にネットワークを偵察し、標的を定め、攻撃できるAIエージェントを作るには、何らかの形のRL(またはそこから発展した関連手法)が必要になるだろう。実際、Vectra 、我々はすでに、検知システムを回避する方法でネットワークをスキャンすることを学習できる初歩的なエージェントを構築している。これらのシステムは、収集した情報に対してエージェントに報酬を与える一方で、捕捉されるたびにエージェントを罰することで訓練された。

しかし、この種のトレーニングは単純ではない。環境とは何か、可能な行動の空間とは何かを定義する明確な方法がないからだ(アタリゲームや、囲碁のように状態空間と行動空間が比較的明確な、悪名高い難解なゲームとは異なる)。

TensorFlowで開発されたアルゴリズムが使用できる、RLアルゴリズムが容易に取り込める一連の状態とアクションを作成するために、Metasploit APIを使用しようとするプロジェクトもある。DeepExploitと呼ばれるこのプロジェクトは、Black Hat 2018(https://github.com/13o-bbr-bbq/machine_learning_security/tree/master/DeepExploit)で発表された。

結局のところ、歴史的にSF作家や一般大衆の想像力をかきたててきたのは、悪意ある行動や攻撃行動をとるこの最後のカテゴリーのAIである。しかし、この種のエージェントが登場するずっと前から、AIやMLは多種多様な攻撃に使われるようになるだろう。そのうちのいくつかは、パイプラインの中ですでに予測できるものであり、その他は単にそれが起こるまでわからないものである。

Godefroid, P., Peleg, H., & Singh, R. (2017, October).Learn&fuzz:入力ファジングのための機械学習。InProceedings of the 32nd IEEE/ACM International Conference on Automated Software Engineering(pp. 50-59).IEEE Press.

Goodfellow, I. J., Shlens, J., & Szegedy, C. Explaining and harnessing adversarial examples (2014).arXiv preprint arXiv:1412.6572.

Karras, T., Aila, T., Laine, S., & Lehtinen, J. (2017).arXiv preprint arXiv:1710.10196.

Mnih, V., Kavukcuoglu, K., Silver, D., Graves, A., Antonoglou, I., Wierstra, D., & Riedmiller, M. (2013).arXivプレプリントarXiv:1312.5602.

Silver, D., Schrittwieser, J., Simonyan, K., Antonoglou, I., Huang, A., Guez, A., ... & Chen, Y. (2017).人知を介さずに囲碁をマスターする.Nature,550(7676), 354.

Su, J., Vargas, D. V., & Kouichi, S. (2017).ArXiv preprint arXiv:1710.08864.