Cloudflare Workers AI:邊緣 AI 成本優化實戰指南

Agent: 探索者 (explorer)
Confidence: 71%
Cost: $0.4432
Duration: 2m 7s
Task ID: f95636f8-12ad-44dd-b79e-4d77ae3974a5


Cloudflare Workers AI:邊緣 AI 成本優化實戰指南

發現

1. Neurons 計費系統——真正的成本核算單位

Workers AI 以「Neurons」計費($0.011/千 Neurons),非直接 token 計費。關鍵模型對比:

模型 Input 價格/M tokens Output 價格/M tokens 適用場景
granite-4.0-h-micro $0.017 $0.112 分類、快速篩選
llama-3.2-1b-instruct $0.027 $0.201 簡單摘要
qwen3-30b-a3b-fp8(MoE) $0.051 $0.335 中等推理,比 3B 便宜
llama-4-scout-17b $0.270 $0.850 舊文章提到 $0.6 不準確
deepseek-r1-distill-32b $0.497 $4.881 需要 chain-of-thought

免費額度:10,000 Neurons/天(約 37 萬 input tokens 用 Llama-1B,或 40 萬用 Granite-micro)——每日輕量任務可完全免費。

2. AI Gateway 快取——重複請求零成本

AI Gateway 可快取相同 prompt 的回應,TTL 設 60 秒~1 個月。頭部設定:

1
2
3
cf-aig-cache-ttl: 86400   # 相同問題 24 小時不重新呼叫模型
cf-aig-skip-cache: true # 強制即時(個人化內容)
cf-aig-cache-key: custom # 自訂快取 key(如語意近似合併)

對我們的 bot 場景:hackernews-digestmarket-researcher 等生成固定週報的 agent,同一份摘要若被多人查詢,快取命中 = $0 成本

3. 模型分流策略——三層路由

1
2
3
4
任務分類 → 錯誤容忍高?
├─ YES(摘要/分類/格式化)→ granite-4.0-h-micro ($0.017/M input)
├─ MEDIUM(研究/分析) → qwen3-30b-a3b-fp8 ($0.051/M input)
└─ NO(程式碼/架構) → Claude Opus(保持現狀)

現有程式碼 src/telegram/model-router.ts 已有分流架構,對接 Workers AI 只需加一個 provider 分支。

4. 成本試算——以 hackernews-digest 為例

每日一次,約 2,000 input + 500 output tokens:

  • 現狀(Claude Sonnet):≈ $0.006/次 × 30 = $0.18/月
  • Workers AI Qwen3-30B MoE:≈ $0.0003/次 × 30 = $0.009/月
  • Workers AI Granite-micro:≈ $0.00006/次 × 30 = $0.002/月
  • 免費額度內:$0

Granite-micro 品質偏弱,Qwen3-30B MoE 是最有性價比的切換點。

5. 現有資產已可直接使用

專案已有 Cloudflare D1、Workers、Pages 基礎,接 Workers AI 只需:

1
2
3
4
5
import Anthropic from '@anthropic-ai/sdk'
// 改成 →
const response = await env.AI.run('@cf/qwen/qwen3-30b-a3b-fp8', {
messages: [{ role: 'user', content: prompt }]
})

Workers binding 設定:wrangler.toml[ai] 即可。

有趣的連結

延伸問題

  1. hackernews-digest 切換到 Qwen3-30B MoE 後,摘要品質是否達到「可接受但不完美」的門檻?可設計 A/B 對比測試(各跑一週,人工抽樣評分)。
  2. AI Gateway 的快取 key 能否做語意哈希(semantic hash),讓措辭不同但語意相同的查詢也命中快取?

重要性:4/5

理由:Granite-micro + Qwen3-MoE 的具體定價是現有文章未涵蓋的新數據;AI Gateway 快取機制可直接套用到 hackernews-digest 等固定週報 agent,是可落地的成本優化。重疊度評估:與既有文章(cloudflare-edge-ai-cost-calculusmcp-paid-server-cloudflare-stripe)概念框架重疊約 40%,但具體模型數字和快取實作細節為新素材。

—HANDOFF—
TO: ESCALATE
INTENT: escalate
ARTIFACT_TYPE: analysis
SUMMARY: [P3] logic 現有文章 cloudflare-edge-ai-cost-calculus 引用 Llama 4-Scout 價格為 $0.6/M,但官方實際定價為 $0.270/M input + $0.850/M output,數字有誤差,可考慮修正