Agent 不是比較會聊天的 Chatbot:它真正多的是工具、狀態和驗證
現在每個產品都說自己有 AI Agent。
但你點進去看,很多只是 chatbot 換皮。它會整理文字、回答問題、幫你寫 email,然後 UI 上放一個「Agent is thinking」。
這不叫 agent。至少不是有用的那種。
Agent 跟 chatbot 最大差別,不是語氣更像人,也不是回答比較長。差別在它能不能為了完成目標使用工具、維持狀態、採取行動,最後還能驗證自己做完了沒有。
這個方向其實不是憑空冒出來的。2022 年的 ReAct paper 就把 reasoning traces 和 actions 結合起來,讓模型可以一邊推理一邊查資料或採取行動。後來 Toolformer 也研究模型如何學會呼叫外部工具。今天產品圈講 agent,本質上是在把這些思路工程化。
Chatbot 回答你,Agent 幫你跑流程
假設你說:
「幫我分析這週客服抱怨最多的問題。」
Chatbot 可能會回答:你可以先分類 ticket,再統計主題,再看情緒。
Agent 應該真的去做:
- 連到客服系統
- 拉出本週 ticket
- 去掉 spam 和重複案例
- 分類主題
- 算每一類數量
- 找代表 ticket
- 寫成報告
- 如果 API 失敗,回報卡在哪一步
這兩個產品價值完全不同。
前者是顧問。後者是實習生。實習生不一定比顧問聰明,但它會動手。
Agent 的最小組成
一個能用的 agent 至少需要五個東西。
目標
使用者要它完成什麼。
目標不能太玄。例如「幫我提升 SEO」太大。「每週找 5 篇需要更新的舊文,列出原因和建議修改段落」就比較像任務。
狀態
Agent 要知道自己做到哪裡。
沒有狀態,它會重複查同一個 API、忘記剛才的錯誤、做到一半偏題。
工具
工具可以是搜尋、讀檔、寫檔、查資料庫、寄 email、開瀏覽器、建立 Notion page。
OpenAI 的 function calling docs 把這件事講得很直接:模型可以根據工具 schema 產生 structured arguments,應用程式再執行工具。也就是說,真正執行動作的不是模型本身,而是你提供的工具層。
這點很重要。
模型只是提出「我要呼叫這個工具,參數是這些」。你的系統才是真正拿權限去做事的那一層。
決策迴圈
Agent 需要一個 loop:觀察目前狀態,決定下一步,呼叫工具,讀結果,再決定要不要繼續。
這也是 agent 容易失控的地方。loop 沒有上限,它就可能一直重試。工具輸出不清楚,它就可能猜錯下一步。
驗證
Agent 說完成,不代表完成。
如果任務是寫檔,要檢查檔案是否存在。如果是發 PR,要拿到 PR URL。如果是寄信,要檢查 API response。如果是改設定,要讀回設定確認。
沒有 verification 的 agent,很容易變成「自信報喜機」。
工具層比 prompt 更容易出事
大家喜歡討論 prompt,但 production agent 更常壞在工具層。
例如:
- 工具回傳 5000 行 log,模型抓不到重點
- API error 格式不固定,模型把失敗當成功
- 工具權限太大,可以刪不該刪的東西
- 沒有 dry run,一呼叫就真的寄信或付款
- 搜尋工具沒有來源,模型把摘要當事實
- 寫入工具沒有 idempotency,重試會重複建立資料
Agent 會放大這些問題。
人類看到奇怪錯誤訊息會停下來想。Agent 可能會硬猜下一步,然後越做越偏。
所以工具要像給「很聰明但很粗心的實習生」用:權限要小,輸出要清楚,錯誤要明確,結果要可驗證。
MCP 為什麼突然重要
Agent 需要工具,工具需要標準化。
這就是 Model Context Protocol 會紅的原因。MCP 把自己比喻成 AI app 的 USB-C,讓模型應用可以用標準方式連到資料源、工具和 workflow。這個比喻有點行銷味,但方向是對的:如果每個 agent 都要重新接 Notion、GitHub、Google Drive、資料庫,那工具整合會變成地獄。
但 MCP 不是安全保證。
它只是連接方式。你還是要處理權限、審計、approval、資料外洩、prompt injection。不要以為接了 MCP server 就等於 agent 可以安心亂跑。
不要一開始就全自動
比較安全的 agent 上線順序是:
- read-only:只能查資料和摘要
- draft-only:能產生草稿,但要人確認
- low-risk write:能建立內部 note、標記 ticket
- approval-required:對外發送、刪除、改設定前要批准
- monitored autonomy:長任務可以自動跑,但有 log、通知、停止條件
很多產品急著做「全自動 AI 員工」。
我覺得這方向很危險。因為 agent 一旦能動手,它的錯誤就不只是回答錯,而是會真的造成後果。
結論
Agent 不是比較會聊天的 chatbot。
它是會使用工具、維持狀態、跑流程、驗證結果的系統。
所以評估 agent,不要只看它講話多自然。要看它能不能安全地做事:工具是否白名單、權限是否最小化、錯誤是否可見、高風險動作是否需要批准、做完是否有驗證。
Prompt 可以讓 demo 變漂亮。
但工具、狀態和驗證,才決定 agent 能不能上線。