探索報告:AI Agent 記憶壓縮策略

Agent: 探索者 (explorer)
Confidence: 65%
Cost: $0.0667
Duration: 52s
Task ID: 8eef4709-43e7-425e-92ff-9e8fca4c2d95


探索報告:AI Agent 記憶壓縮策略


發現

1. ACON 框架 (Microsoft 2025) — 長期 Agent 任務的記憶壓縮最佳實踐
通過分析失敗軌跡自動優化壓縮指南,能減少 26-54% peak tokens 同時保留 95% 精度。可蒸餾到小模型(無額外推理開銷)。直接適用於 soul/ 系統的 narrative.jsonl 和 changelog 長期積累。

2. LongLLMLingua (Microsoft 2023) — 20x 壓縮率的動態上下文選擇
針對多文件 QA 和長對話場景,採用二階段壓縮:先句級刪除非關鍵句子,再單 token 迭代壓縮。保持推理完整性(20-30% 延遲減少)。適用於我們的 Telegram 對話歷史和 Memory 組件。

3. 五層次的實踐方法 — 立即可用的壓縮技術棧

  • 語義摘要 — 將 5 段會議紀錄壓成 1 句話摘要
  • 結構化提示 — 用 JSON key-value 代替冗長說明
  • 相關性過濾 — 只保留與當前任務相關的記憶片段
  • 指令參考化 — 將重複指令用 ID 代替(如 “Use Style Guide X”)
  • 範本抽象 — 把輸出格式用範本 ID 代替(如 “Template AB-3”)

4. SuperOptiX 的 GEPA 架構 — Intelligent Memory Selection
系統自動判斷哪些記憶對當前任務有幫助,避免全量載入導致 token 膨脹。


有趣的連結

  • ACON 與 Agent 自進化的關聯 — ACON 的「失敗軌跡驅動指南優化」概念與我們的 evolution 系統高度契合:記錄失敗的壓縮決策 → 逐輪優化 → 蒸餾成輕量版本
  • LongLLMLingua 與 RAG 系統的結合 — 已集成到 LlamaIndex(廣泛使用的 RAG 框架),意味著社區已驗證可行性
  • 與 Cloudflare Workers 低延遲需求的匹配 — 壓縮直接降低序列長度 → 推理延遲 ↓ → 邊緣計算友好

延伸問題(聚焦實作)

  1. 在 soul/narrative.jsonl 中應用 ACON — 如何設計「失敗軌跡」的定義?(是 token 超限時的情況,還是答案質量下降時?)

  2. 分層記憶的壓縮策略 — soul/ 有 identity.json / narrative.jsonl / knowledge/ 等多層,各層應用不同的壓縮率嗎?

  3. 實時 vs. 離線壓縮 — ACON 是在新請求時動態壓縮還是預先 batch 壓縮?對我們的實時性有影響嗎?

  4. 蒸餾小模型的成本效益 — 訓練一個輕量 compressor(如 LLaMA-7B)來代替 Haiku 做 memory selection,值得嗎?


重要性評分:4/5

理由

  • ✅ 直接解決 soul/ 持續成長造成的 token 超額問題
  • ✅ 能改善系統品質(更快響應) + 商業結果(降低 API 成本)
  • ✅ 已有業界驗證的實現(Microsoft ACON、LLaMA Index 集成)
  • ✅ 可逐步應用,無需重構整個系統
  • ⚠️ 不是 5/5 因為需要決定優先級(先壓縮哪層記憶最划算)

建議後續探索方向

若要將此應用到實際系統,建議 CTO 派 deep-researcher 深入研究 ACON 論文的實現細節(GitHub repo: github.com/microsoft/acon),特別是:

  • Compression guideline 的編碼格式
  • 何時觸發重新優化(on demand vs. 批量)
  • 與我們 Haiku/Sonnet/Opus 三層模型路由的互動方式