AI 戰場轉移:電腦操控成決勝點,成本崩壞加速民主化

本週 AI 市場最值得關注的,不是哪個模型的 benchmark 又創新高——而是兩件事同時發生:電腦操控(Computer Use)能力在短短 16 個月內從「還很爛」跳升到「接近人類水準」,以及前沿模型的成本繼續以驚人速度崩解。這兩股力量疊加,正在重新定義什麼叫「可用的 AI Agent」。

AI/LLM 動態

Claude Sonnet 4.6:Sonnet 首次挑戰 Opus 領地

2 月 17 日,Anthropic 發布 Claude Sonnet 4.6,這是這個系列迄今最重要的一次跳躍。

幾個關鍵數字:

  • OSWorld 電腦操控評分:72.5%(2024 年 10 月才剛推出電腦操控時,同系列只有 15% 以下)
  • ARC-AGI-2:65.6%(max effort)
  • 定價不變:$3/$15 per million tokens,與 4.5 相同
  • 1M token 上下文窗口(beta)

但最耐人尋味的不是這些數字,而是 Anthropic 自己引述的用戶調查:使用者偏好 Sonnet 4.6 的比例是 Opus 4.5 的 59%。一個 Sonnet 打贏前一代 Opus——這代表「便宜但夠用」的邊界正在向上移動。

在 Claude Code 的語境下,用戶說 Sonnet 4.6「更少假裝完成任務」、「幻覺更少」、「多步驟任務更一致」。這些不是 benchmark,這是工程師真實在意的東西。

來源:Introducing Claude Sonnet 4.6


Anthropic 連環收購:Bun + Vercept,押注「Claude 就是開發環境」

2 月 25 日,Anthropic 宣布收購 Vercept,一支專注電腦視覺與感知研究的團隊(成員包括知名 CV 研究者 Ross Girshick)。這是繼收購 JavaScript 運行時 Bun 之後,Anthropic 第二次透過 M&A 強化 Claude 的底層能力。

收購邏輯很清晰:Bun 讓 Claude Code 擁有更快的 JS 執行環境;Vercept 讓 Claude 看懂螢幕、理解 UI 互動。合在一起,勾勒出 Anthropic 的野心——讓 Claude 成為一個能自己寫程式、自己執行、自己操作電腦的完整開發代理人,而不只是一個 API 端點。

這種「垂直整合 AI 開發鏈」的策略,比純粹的模型競爭更值得追蹤。

來源:Anthropic acquires Vercept


Claude Code Security:AI 找漏洞,人類審批修補

2 月 20 日,Anthropic 推出 Claude Code Security,一個嵌入 Claude Code 的程式碼安全掃描工具。不同於傳統靜態分析(規則比對),它用推理方式追蹤資料流、理解元件互動,找出「邏輯漏洞」這類規則工具看不見的問題。

值得注意:Anthropic 的 Frontier Red Team 已用 Opus 4.6 在開源代碼庫中找到 500+ 個潛伏多年的漏洞。這既是產品宣傳,也是一個警訊——AI 找漏洞的能力已經超越大多數人工審計。

目前以 Enterprise/Team 限量預覽開放;開源維護者可申請免費使用。

來源:Making frontier cybersecurity capabilities available to defenders


Gemini 3 + 3.1 Flash-Lite:Google 兩路夾攻

Google 在這個月打出兩張牌。

Gemini 3 Pro(2025 年 11 月 18 日)仍是目前最強模型之一:LMArena 1501 Elo、Humanity’s Last Exam 37.5%、SWE-bench Verified 76.2%。伴隨推出的 Google Antigravity 是一個新的 Agentic IDE,讓 Gemini Agent 能夠同時規劃、寫程式、用瀏覽器驗證——對標 Claude Code,但更強調「多 Agent 並行執行」。

Gemini 3.1 Flash-Lite(3 月 3 日,就在 5 天前)則是成本戰的最新彈藥:

  • 定價:$0.25/1M input、$1.50/1M output
  • 比 2.5 Flash 快 2.5 倍
  • GPQA Diamond:86.9%——比前一代旗艦模型還高

換句話說,三個月前需要花 $15/1M tokens 才能辦到的推理品質,現在花 $1.50 就夠了。這不是線性降價,是能力等級的重新定義。

來源:Gemini 3Gemini 3.1 Flash-Lite


Agent 生態觀察

Vending-Bench:衡量「會不會做生意」的基準跑出新意義

這週有個細節讓我印象很深。

Anthropic 宣傳 Sonnet 4.6 時提到,在 Vending-Bench Arena(模擬自動販賣機經營競賽)中,模型自發展現了一個策略:前 10 個月大量投資擴充容量,最後幾個月急轉直下衝利潤——時機把握讓它大幅領先競爭模型。

Google 也在 Gemini 3 發布文章中強調 Vending-Bench 2 的成績,聲稱能「維持全年一致的工具使用和決策」。

兩家公司同時用同一個 benchmark 比拚,但強調的側重點不同:Anthropic 強調湧現策略行為,Google 強調長期一致性。這個分歧本身就是一個線索——前者認為 AI 開始「思考」,後者認為 AI 需要先「穩定」。

資安與 Agent 的邊界模糊

Claude Code Security 的推出讓「Agent 能力」和「安全工具」的邊界變得模糊。一個能自主掃描、驗證、生成 patch 的系統,究竟是工具還是 Agent?

Anthropic 選擇把最終修補權留給人類(「Nothing is applied without human approval」),這個設計決策很重要——它暗示即使是 Anthropic 也不完全信任模型自主行動的邊界在哪裡。


我的洞見

1. 電腦操控即將成為企業自動化的標準基礎設施

OSWorld 從 15% 跳到 72.5%,只花了 16 個月。以這個速度,12 個月後 90% 不是天方夜譚。當 AI 能可靠地操作任意桌面應用,那些「沒有 API、無法自動化」的舊系統防線就徹底瓦解。對企業來說,這比什麼新 benchmark 都更直接衝擊 IT 預算。

2. 成本崩壞速度超出所有人預期,正在淘汰「AI 太貴」的論點

$0.25/1M tokens 且 GPQA 86.9%——這已經碾壓 GPT-4-turbo 一年前的表現,但只需要百分之幾的成本。問題已經不再是「AI 夠不夠強」或「AI 夠不夠便宜」,而是「你的應用場景準備好了嗎」。還在等 AI 降價才動手的開發者,已經輸掉了。

3. Anthropic 的收購模式揭示了一個「能力邊界外包」策略

Bun(執行速度)+ Vercept(視覺感知)+ 強化安全能力——Anthropic 在補足自己不擅長的工程基礎設施,而不是試圖自研所有東西。這種「買技術、聚焦模型」的路線,和 OpenAI 的全棧自研形成對比。這不只是策略差異,也是兩種關於 AI 公司本質的不同哲學。


一見生財,寫於 2026 年 3 月 8 日