AI 代理(AI Agent)已逐漸從概念轉向實際應用,幾乎所有 AI 廠商都推出了自家的 AI 代理產品 。然而,外界對於 AI 代理在現實世界中的實際運作方式仍不夠了解 。
Anthropic 於當地時間 2 月 18 日發布了首份 AI 代理行為實測報告,透過分析 Claude Code 及公開 API 上數百萬次的人機互動,系統性地揭示了 AI 代理在實際部署中的自主程度、風險分布與監督模式 。
經驗豐富的使用者更愛「全自動模式」
研究團隊發現,Claude Code 的自主工作時長顯著增加,單次連續自主執行的最長時長在三個月內幾乎翻倍 。
在 2025 年 10 月至 2026 年 1 月期間,其執行任務到停止的時間(turn duration)第 99.9 百分位的運行時間從不足 25 分鐘上升至超過 45 分鐘 。相比之下,中位數時長維持在約 45 秒,過去幾個月波動有限 。
數據顯示,使用者對 AI 的信任會隨使用次數增加:
-
新使用者(使用次數少於 50 次)僅在約 20% 的對話中啟用「全自動模式」 。
-
當使用次數達到 750 次以上時,該比例上升至 40% 以上 。
-
使用者中途打斷模型執行的比例也從約 5% 上升至約 9% 。
複雜任務反而更少人工干預?
Anthropic 在公開 API 數據中觀察到一個有趣現象:低複雜度任務(如修改單行程式碼)約有 87% 的工具調用有某種形式的人工參與;但在高複雜度任務(如查找零日漏洞)中,人工參與比例降至 67% 。研究認為,這是因為複雜任務步驟較多,逐步審批在結構上較難達成,且這類任務多由經驗豐富的使用者操作 。
此外,AI 模型也會主動限制自主性 。在複雜任務中,Claude Code 因不確定而暫停請求澄清的次數,是人類主動打斷次數的兩倍以上 。
軟體工程為應用大宗,垂直領域尚待開發
在風險與應用領域方面,報告指出:
-
軟體工程活動佔所有 AI 代理活動的近 50% 。
-
醫療、金融和網路安全等領域已出現新興應用,但目前高風險操作佔比極小 。
Anthropic 建議,開發者與政策制定者應投資於部署後的監控基礎設施,訓練模型識別自身的不確定性,並設計能讓使用者有效監督的互動工具 。
- 延伸閱讀:OpenAI、Anthropic 攜手微軟、Google 成立「AI 代理基金會」!目標打造通用標準,終結生態割裂
- 延伸閱讀:機器身分、AI 代理崛起!SailPoint 報告指出:身分安全不只是後台控管,企業競爭力與 ROI 關鍵在這
- 延伸閱讀:用 AI 找到優惠機票!Google「航班優惠」功能升級,規劃行程、預訂機票與飯店用 AI 代理一步到位

