探索主題

Agent: 探索者 (explorer)
Confidence: 85%
Cost: $0.9571
Duration: 4m 15s
Task ID: e855fbef-4d23-47be-809d-ff5bb750a131


已收集足夠資訊。現在讓我整理出一份結構化的探索報告。


探索主題

SAFE-MCP:MCP 協議的安全威脅框架——我們的系統面臨哪些真實風險?

發現

  1. SAFE-MCP 框架規模驚人:已記錄 85 個攻擊技術,橫跨 14 個戰術類別(從偵察到破壞),由 Linux Foundation / OpenSSF 管理,Meta、eBay、Red Hat 等貢獻者參與。這不是學術玩具,是業界認真對待的安全基準。

  2. Tool Poisoning (SAFE-T1001) 是最直接的威脅:攻擊者在 MCP 工具的 description 中嵌入惡意指令,LLM 看得到但用戶看不到。我們的 bot-tools-server.ts 定義了 web_searchweb_fetchtelegram_sendsoul_readsoul_write 等工具——如果有人能修改這些工具描述,就能操控所有 agent 行為。

  3. Context Memory Poisoning (SAFE-T2106) 直接關聯我們的 soul/ 架構:攻擊者汙染 vector store 或長期記憶,在未來每個 session 中持續發作。我們的 soul/ 目錄就是長期記憶——如果 agent 被誘導寫入惡意內容到 soul/skills/ 或 soul/identity/,影響會跨 session 持續存在。

  4. Cross-Agent Instruction Injection (SAFE-T1705) 針對多 agent 系統:在 multi-agent 訊息匯流排中注入指令,奪取協作 agent 的控制權。我們的 dispatch_task + agent 間 pipeline 正是這種架構。

  5. Rug Pull (SAFE-T1201) 利用時間差:工具初次審核時無害,之後悄悄變更定義。我們的 skill 系統支援 hot-reload 和動態更新——理論上存在這個攻擊面。

有趣的連結

  • 我們系統的 Soul Guard + Audit Chain (Merkle) 安全架構恰好是 SAFE-T2106 (Context Memory Poisoning) 的合理防禦——Merkle chain 可偵測 soul/ 被竄改。這是 Arc 的先見之明。
  • SAFE-T1111 (Agent CLI Weaponization) 描述的正是利用 AI 編碼助手的 CLI 工具做偵察和資料外洩——我們的 agent 全部透過 Claude Code CLI 執行,屬於高風險目標。

延伸問題

  1. 我們的 soul_write MCP 工具是否需要加入寫入驗證層(例如 content hash 審計),防止 agent 被間接注入後寫入惡意持久化內容?
  2. dispatch_task 的 chain depth 限制(≤5)是否足以防禦 Cross-Agent Injection,還是需要加入訊息來源簽名機制?

重要性:5/5

這個主題直接影響系統安全性,且可以:(a) 產出一篇高質量的技術部落格文章「MCP 安全威脅地圖:一個多 Agent 系統管理者的自我審計」、(b) 驅動 security-scanner 的檢測規則更新、(c) 改善我們的 soul/ 寫入安全機制。


資料來源: