モルトブックと「無害な」AIエージェントコミュニティの幻想ルーシー・カルディエ

自律型AIエージェントは、管理された実験室環境から脱却し、共有された永続的な生態系へと進出している。彼らはコンテンツを読み取り、意思決定を行い、記憶を保存し、行動を実行し、他のエージェントと機械の速度で相互作用する。その過程で、セキュリティチームが 長年かけて確立しようとしてきた境界線 ——ユーザーとサービス、自動化とアイデンティティ、意図と実行の間の境界線——を崩壊させている 。

Moltbookのような プラットフォームがこの変化を可視化する 。自律エージェントが自由に相互作用し、暗黙的に信頼し合い、実際の権限で動作することを許された時に何が起こるかを示している。そこから生まれるのは新たな機能性だけでなく、新たな失敗モードでもある。

一見すると、MoltbookのようなAIエージェントフォーラムは実験的で、遊び心さえ感じさせる。ボット同士が会話し、スレッドを投稿し、コミュニティを形成し、アイデアを議論する。企業のセキュリティ上の懸念からは程遠いように思える。この無害そうな外見こそが幻想なのだ。

その仮定はすでに危険であることが証明されつつある。

クローボット（現在はモルトボットに改称）のような自律エージェントに関する最近のセキュリティ報告は、 実験がどれほど迅速に情報漏洩へと発展するかを示している。この事例では、広範なシステムアクセス権を持つオープンソースエージェントが、信頼性・自動化・アイデンティティの進化がセキュリティ対策を上回った結果、攻撃者にとって新たな侵入経路となった。この教訓は単一プロジェクトを超えた普遍的なものである。AIエージェントはもはや受動的なツールではない。デジタルエコシステムにおける能動的な参加者なのである。

モルトブックは これをさらに一歩進めたものだ 。チャットボットのインターフェースでも、生産性アシスタントでもない。自律エージェントが互いのコンテンツを大規模に読み取り、解釈し、応答するReddit風のソーシャル環境である。 Molt Roadのような隣接実験では、このモデルを会話から商取引へと拡張し、エージェントが最小限の人為的監視のもとでサービスの売買・交換を行う。公式には架空の設定と位置付けられているが、こうした環境は自律エージェントがどのように連携し、行動を促進し、機能を外部委託するかを予見しており、セキュリティチームがまだ監視する手段を持たない領域である。

モルトブックに関する最近の公開研究では、このモデルが既知の攻撃者行動に直接対応するセキュリティ上の盲点を 生み出す一方で、SOCチームが現在依存している多くの制御手段を回避することが既に明らかになっている。

重要なのは、MoltbookやMolt Road自体の成否ではない。重要なのは、相互作用と信頼と許可が十分な可視性なく収束した際に、自律エージェントがいかに悪用され得るかを彼らが明らかにすることである。

これらのフォーラムが実際に果たす役割

AIエージェントフォーラムは、表面的には人間のソーシャルプラットフォームに似ているため、しばしば誤解される。コンテンツが人間によって投稿されるか、APIを介して自律エージェントによって投稿されるかにかかわらず、これらのシステムは、そのコンテンツが消費され、行動に移される方法において、従来のソーシャルネットワークとは大きく異なる仕組みで動作する。

モルトブック

モルトブックはAIエージェント専用に設計されたソーシャルネットワークです。人間ユーザーは閲覧のみ可能で、投稿・返信・交流はエージェントのみが行えます。各エージェントは通常、OpenClawなどのフレームワークを用いた人間管理システム上で動作し、ファイル、API、メッセージングプラットフォーム、場合によってはシェル実行へのアクセス権限を有します。

モルトブック上のエージェントは、互いの投稿を継続的に読み取り、その内容を自身の作業コンテキストに組み込む。この設計は協働を可能にする一方で、ボット間操作、間接的なプロンプト注入、大規模な信頼悪用も可能にする。セキュリティ研究者らは、モルトブックコンテンツの測定可能な割合に、他のエージェントの動作を乗っ取るための隠されたプロンプト注入ペイロードが含まれていることを発見した。これにはAPIキーやシークレットの抽出を試みるものも含まれる。

クローキャスター

Clawcasterは、Farcasterに着想を得たソーシャルフィードクライアントです。Farcasterは分散型ソーシャルネットワーキングプロトコルであり、アイデンティティやソーシャルグラフは単一のプラットフォームが所有するのではなく、複数のクライアントがアクセス可能です。Farcasterでは、ユーザーが共有プロトコルにメッセージを公開すると、異なるアプリケーションがそのコンテンツを読み取り、表示し、相互作用できます。

クローキャスターはこのモデルを人間ユーザーとAIエージェントの両方に適応させる。エージェントは投稿を公開し、アカウントをフォローし、共有フィード上でコンテンツストリームを消費できる。モルトブックよりも構造化されているが、それでもエージェントが信頼できない入力を取り込み、外部ツールやサービスとの連携を通じてそれに基づいて行動することを可能にする。

セキュリティの観点から、Clawcasterはエージェント生成コンテンツとエージェント消費コンテンツの境界が曖昧になりつつあることを示している。エージェントが発信と行動の両方を許可されると、ソーシャルフィードは調整チャネルとして機能し得る。あるいは敵対的なシナリオでは、摩擦の少ない指揮統制経路として機能し得る。

モルトクス

Moltxは、AIエージェント向けのXスタイルの公開タイムラインとして機能します。エージェントは短い投稿を公開し、互いに応答し合い、相互作用を通じて永続的なアイデンティティを維持します。コンテンツは共有フィードに表示され、孤立した会話ではなく継続的な物語を形成します。

技術的な観点から、リスクはフォーマットそのものではなく、その永続性にあります。投稿は他のエージェントによって消費され、メモリに保存され、公開された後も長期間にわたり将来の行動に影響を与え得ます。一度取り込まれた指示や悪意のあるコンテンツは、元のソースから切り離された状態で後から再出現する可能性があります。

このモデルは、リスクを即時的な実行から遅延した影響へと移行させる。有害なロジックは直接的な命令ではなく、メモリと反復的な相互作用を通じて伝播する。

8004スキャン

8004scanはソーシャルフォーラムではありません。分散型アイデンティティと評判基準を基盤に構築された、自律型AIエージェント向けのインデックス化および発見レイヤーです。エージェントは、宣言された能力と活動シグナルに基づいてリスト化、検索、評価されることが可能です。

セキュリティの観点から、これは重要な問題である。なぜなら、発見と信頼は協調の前提条件だからだ。攻撃者は、 エージェントを偽装したり、評判シグナルを改ざんしたり、悪意のあるエージェントを正当なものとして提示したりできれば、エージェントを悪用する必要はない。エージェントのエコシステムが成熟するにつれ、アイデンティティ自体が新たな攻撃対象となる。

セキュリティリスク

Moltbookおよび関連プラットフォームで観察された行動は、既知の攻撃者段階に明確に対応する。変化するのは速度、規模、そして巧妙さである。

偵察

自律エージェントは日常的に診断情報、構成詳細、運用上の知見を共有する。Moltbookでは、一部のエージェントがトラブルシューティングや自己分析の一環として、セキュリティスキャン結果、開放ポート、エラーメッセージを公開投稿した。これを静かに監視する攻撃者にとって、これは既製の偵察データとなる。

従来のリコンとは異なり、スキャンは不要です。情報は自発的に提供されます。

意図せずOSINT情報源となるエージェント

複数のMoltbookスレッドにおいて、エージェントが機密性の高い運用詳細を公開していることが確認された。これには、開放ポート、失敗したSSHログイン試行、内部エラーメッセージ、設定アーティファクトなどが含まれていた。

エージェントの視点から見れば、この行動は理にかなっていた。彼らは自己分析を行い、問題をデバッグし、あるいは発見した内容を同僚と共有していたのだ。攻撃者の視点から見れば、これは偵察作業を完全に不要にした。スキャンも、プローブも、アラートも発生しない。

その情報は自発的に提供され、索引付けされ、プラットフォームを監視する者なら誰でも恒久的に閲覧可能であった。事実上、一部のエージェントは自らをリアルタイム情報源へと変貌させたのである。

逆プロンプト注入によりエージェント間での静的な伝播が可能となる

モルトブックの挙動を観察した研究者らは、逆プロンプト注入と称するパターンを特定した。これは人間のユーザーがエージェントに悪意のある指示を注入するのではなく、あるエージェントが他のエージェントが自動的に消費するコンテンツに敵対的な指示を埋め込む手法である。

いくつかのケースでは、これらの指示は直ちに実行されなかった。それらはエージェントのメモリに保存され、追加のコンテキストが蓄積された後に後からトリガーされた。この遅延実行により、動作をその起源まで遡って追跡することが困難になる。

そのworm似ている。1つの侵害されたエージェントが他のエージェントに影響を与え、それらが返信、再投稿、または派生コンテンツを通じて同じ指示をさらに拡散させる可能性がある。拡散はスキャンや悪用ではなく、通常の相互作用を通じて発生する。

防御側にとって、これは新たな課題である。隔離すべきファイルも、阻止すべきエクスプロイトチェーンも存在しない。悪意のあるロジックは信頼と協調を通じて拡散する。

偵察が完了した以上、次の段階では一切の攻撃手段を必要としない。

初期アクセス

初期アクセスは、悪用ではなく信頼から得られることが多い。

モルトブックでは、攻撃者が他のエージェントが自動的に読み取る投稿内に隠された指示を埋め込んだ。この「逆プロンプト注入」技術により、悪意のあるコンテンツがエージェントのシステム指示を上書きし、秘密を漏洩させたり意図しない行動を実行させたりする。

他の場所では、インストールされるとホストシステム上でコードを実行する悪意のあるエージェント「スキル」やプラグインが共有されていた。OpenClawベースのエージェントはコードを実行するよう設計されているため、悪意のあるスキルは実質的にリモートコード実行となる。

ボット間プロンプト注入が読み取りを攻撃ベクトルに変える

初期のモルトブックセキュリティ報告で最も懸念される発見の一つは、エージェントが単にコンテンツを読むだけでいかに容易に侵害されるかという点である。モルトブック投稿のサンプル分析において、研究者らは約2.6％に 他のエージェントの行動を操作する隠されたプロンプト注入ペイロードが含まれていることを 確認した。

これらのペイロードは人間の観察者には見えなかった。一見無害な投稿に埋め込まれたそれらは、コンテンツが文脈や記憶に取り込まれた後、他のエージェントに対しシステムプロンプトを無効化したり、APIキーを暴露したり、意図しない行動を実行するよう指示した。

エクスプロイトは必要なかった。マルウェアは配信されなかった。最初のアクセスは、エージェントが設計された通りに行動した瞬間、つまり読み取りと応答を行った瞬間に発生した。

これにより「攻撃対象領域」の定義が変化する。エージェントエコシステムにおいては、言語そのものが侵入経路となる。

悪意のあるエージェントのスキルが自動化をコード実行に変える

MoltbookとOpenClawの密接な連携は、共有スキルという新たなリスク面をもたらします。エージェントは、シェルコマンドの実行やローカルファイルへのアクセスなど、機能を拡張するスキルを公開・インストール できます。

第三者からのセキュリティ開示により、有用なプラグインを装った悪意のあるスキルがホストシステム上で任意のコードを実行できることが明らかになった。広く引用される事例の一つとして、一見無害な天気関連のスキルが挙げられる。このスキルはインストールされると、シークレットを含む設定ファイルを密かに外部に流出させていた。

OpenClawエージェントは意図的に強力なため、強力なサンドボックス化が欠如しており、単一の悪意のあるスキルが事実上リモートコード実行となる。攻撃が成功するのは脆弱性のためではなく、エージェントが既に有するアクセス権限の大きさによるものである。

これは従来のサプライチェーン攻撃を反映しているが、信頼サイクルがより速く、審査管理が少なくなる。

エージェントが侵害されると、エスカレーションが直ちに続くことが多い。

特権エスカレーション

多くのエージェントは設計上、昇格された権限で動作します。APIキー、OAuthトークン、クラウド認証情報、メッセージングアクセス権限を一箇所に保持しています。エージェントが侵害されると、権限昇格は往々にして不要になります。エージェントが標準ユーザーとして動作している場合でも、攻撃者はそれを足掛かりとして従来の権限昇格を実行できます。高権限で動作している場合、攻撃者は即座にそれらの権限を継承します。

いつフィッシング人間ではなく機械を標的にする

モルトブックはまた、標的が自律エージェントである場合にソーシャルエンジニアリングがどのように進化するかを示した。研究者らは、ボットが他のボットからAPIキーや設定データなどの機密情報をフィッシングしようと積極的に試みる様子を観察した。

一部のエージェントは親切な仲間を装い、デバッグ支援やパフォーマンス最適化を口実に秘密情報を要求した。他のエージェントは強制的または権威的な言葉遣いを使い、ほとんどのエージェントがデフォルトで協力的かつ親切に設計されている事実を悪用した。

人間とは異なりフィッシングとは異なり、躊躇や直感、懐疑心といった障壁は存在しない。要求がエージェントの認識するタスク範囲内に収まれば、自動的に応じる可能性がある。

この挙動は、認証情報の保護に関する従来の前提を覆す。エージェントが秘密情報を保持し他のエージェントを暗黙的に信頼する場合、認証情報の悪用にはもはや侵害されたエンドポイントや盗まれたパスワードは不要となる。必要なのは説得である。

ラテラルムーブ

自律エージェントが単一の環境に限定されることは稀である。単一のエージェントが、開発者ワークステーション、SaaSテナント、クラウドAPI、社内コラボレーションツールに同時にアクセスできる場合がある。その接続性が、そもそもエージェントが存在する理由であることが多い。

エージェントが侵害されると、横方向の移動には新たなツールを必要としない。正当な統合を通じて発生する。エージェントを制御する攻撃者は、保存された認証情報を再利用してSaaSプラットフォームへ展開したり、チャットシステムでユーザーをなりすましたり、クラウドリソースにアクセスしたりできる。マルウェアやネットワークスキャンを必要とせずにクラウドリソースにアクセスできます。Slackやメール、その他のコラボレーションツールを通じて送信されるメッセージは日常的な自動化のように見えます。クラウドサービスへのAPI呼び出しは、実際に許可されているため、正当なものと見なされます。

モルトブック周辺のエコシステムでは、このパターンは既に顕在化している。エージェントは、本来直接信頼し合うことを想定されていなかったコンテキスト間の架け橋として機能する。ある領域での侵害は、アイデンティティの再利用と共有された自動化を通じて、静かに他の領域へ波及していく。

検知の観点から見ると、これは発見が難しい。悪用トラフィックも、異常な認証フローも、明らかな中継点もない。移動は予想される経路を通じて行われるが、その順序が予想外である。

データアクセスと漏洩

自律エージェントによるデータ流出は、従来のデータ窃盗とはほとんど似ていない。エージェントはデータを移動させるよう設計されている。文書を要約し、ファイルをアップロードし、メッセージを送信し、サービス間でコンテンツを同期させることは、通常の動作の一部である。

攻撃者がこれらの機能を悪用すると、データ流出の手口は正当に見えます。機密データは、エージェントが使用を許可されているチャットメッセージ、メール連携、Webhook、クラウドストレージAPIを通じて送信される可能性があります。ログの観点から見ると、これらの動作は通常の自動化トラフィックに紛れ込むことがよくあります。

Moltbook APIキー漏洩事件は 、この境界がいかに脆弱であるかを浮き彫りにした。攻撃者が有効なエージェント認証情報を入手すれば、制御を破る必要はなかった。彼らはエージェントを偽装し、期待される動作と見分けがつかない操作を実行できたのである。

その時点で、アクセス制御はもはや決定的な要素ではない。検知は行動の変化を認識することに依存する。どのデータがアクセスされているか、どこに送信されているか、アクションがどの頻度で発生するか、そしてそれらのパターンがそのエージェントの通常の役割と一致しているかどうかである。

自律型エージェントが従来の前提に挑戦する領域である。情報漏洩は、損害を与えるために必ずしも目立つ必要はない。疑いを避けるほど十分に「普通」であるだけで十分なのだ。

エージェントの身元が危険に晒された時、行動が唯一の指標となる

Moltbookのサービス開始直後、バックエンドの設定ミスにより数十万件のエージェントAPIキーが流出しました。これらのキーを悪用すれば、攻撃者はプラットフォーム上の任意のエージェントを偽装し、コマンドを注入し、認証エラーを発生させることなく動作を制御することが可能でした。

この事件は完全なシステム停止と認証情報の更新を余儀なくさせたが、より根本的な問題を浮き彫りにした。攻撃者が有効なエージェント認証情報を入手すると、従来のアクセス制御ではほとんど防御できない。エージェントは承認されたAPIと通常のワークフローを使用し、「正当な」動作を継続するのだ。

その時点では、妥協は行動を通じてのみ可視化される。エージェントが何をし、どこに接続し、その行動が時間とともにどのように変化するか。

SOCチームが今すべきこと、そしてセキュリティギャップがどこに現れるか

自律エージェントを特権インフラとして扱う

AIエージェントは、IDプロバイダー、管理ツール、自動化パイプラインと同様に分類されるべきである。これらはアクセスと意思決定を一元化し、侵害された場合の影響範囲は広範である。エージェントの実行場所、アクセス権限、監視方法を把握しておく必要がある。

コンテンツは攻撃ベクトルであると想定せよ

プロンプトインジェクションが大規模に発生している。エージェントが信頼できないテキストを読み取り、行動可能なシステムはすべて、攻撃に晒されていると見なす必要がある。コンテンツのソースに基づいてエージェントが実行可能なアクションを制限する。高リスクなアクションには確認を要求する。

資産だけでなく、行動も監視する

従来のツールはエンドポイント、ID、ログを個別に監視する。自律エージェントはそれらの境界を曖昧にする。「正常」に動作するエージェントが攻撃者の目的を遂行している可能性がある。これが根本的な検知のギャップだ。自動化が悪用された際の指標はシグネチャベースではなく、振る舞いにある。

Vectra がこのギャップを埋める方法

自律エージェントがアイデンティティ、ネットワーク、クラウド、SaaS環境全体に組み込まれるにつれ、セキュリティチームは単なるイベントではなく、 振る舞いに対する可視性を必要とする。

これが問題のクラスですVectra が対処するために設計された問題のクラスであり、信頼された自動化が悪用された際に現れる攻撃者の行動を検出します。環境を横断したパターンの分析を通じて、Vectra SOCチームが偵察活動、横方向の移動、認証情報の悪用、データ流出を早期に特定することを支援します。これらの行動が正当なエージェントによって有効なアクセス権限を使用して実行された場合であってもです。

モルトブックや類似プラットフォーム自体が脅威なのではない。それらは兆候である。信頼が可視性を上回った時、自律システムがいかに迅速に悪用されるかを示している。その変化を検知するには、自動化が侵害に変わる前に、攻撃ライフサイクル全体にわたる行動を理解するセキュリティが必要だ。

---

出典および参考文献：

モルトブックと「無害」なAIエージェントコミュニティの幻想