AI 助理、AI Agent，以及兩者之間的一切

一個有用的 AI 系統，關鍵不在於它被稱為助理還是 Agent，而在於它對下一步擁有多少控制權。

來看一位購屋者對不動產研究工具提出的需求：

「比較這三間房產，查詢每間的學區，以目前的房貸利率估算每月還款金額，標記任何分區問題，然後推薦最適合有兩個小孩的家庭的選項。」

一個請求，五項子任務。要好好回答，系統得做多次資料查詢、一次財務計算、多面向交叉比較，最後還要根據買家的偏好做判斷。單純的「你問我答」無法處理。但一條僵化的腳本也可能漏掉關鍵資訊——比如一項進行中的分區重劃，可能直接翻轉推薦結果。

這類請求逼我們面對一個核心問題：系統到底該自己處理多少？

答案不是二選一。不是「助理還是 agent」這麼簡單，而是一道自主性光譜（autonomy spectrum）。光譜上的正確位置取決於任務本身、風險高低，和可用工具的品質。理解這道光譜，比死記標籤有用得多。

圖解助理與代理不是二分法。真正的設計問題是誰控制下一步，以及人類核准在哪裡阻止系統自行採取行動。

同一個任務，三種做法

要看光譜為什麼重要，最直接的方式就是拿同一個請求，用三種不同的系統自主性層級跑一遍。買家的問題一樣，變的只是系統掌控的程度。

版本一——輔助式（Assistive）

系統每一步都等你下指令。

買家要求比較，系統回：

「這是您選的三筆房源。要不要我先查第一間的學區？」

買家說好。系統查完房產 A 的學區資料，秀出來，然後又停：

「準備好查第二間的學區了嗎？」

就這樣一步一步。每個子任務都得等買家點頭、看結果、再指示下一步。系統絕不自己決定接下來做什麼。叫它才動，做完就停。

這就是輔助式——人類主導，系統幫忙。簡單、低風險的查詢沒問題。但碰到五步驟的比較任務就很煩：買家得自己在腦中管整個工作流程（workflow），哪些查過、哪些沒查、怎麼拼起來——全靠自己記。

版本二——固定工作流程（Fixed Workflow）

這次系統照一條預設流程跑。買家送出請求，系統依序執行：

擷取三間房產的房源細節。
查每間的學區。
算每間的預估月付金額。
依一組標準面向做跨房產比較。
產出摘要表格。

效率高多了。買家不用手動推每一步就能拿到結構化的比較結果。但流程是死的——不管途中發現什麼，都走同樣步驟、同樣順序。

問題來了。假設房產 B 坐落在一個有待決重新分類的區域——一項商業分區重劃，可能兩年內讓這條住宅街出現貨車車流。固定流程裡沒有「檢查分區標記」這步，因為它本來就不是為了應對意外設計的。比較表格漂漂亮亮，但漏掉了一個關鍵事實。

版本三——有邊界的 Agent（Bounded Agent）

這次系統有了規劃能力。收到買家請求，自己拆子任務、開始執行——但在明確的邊界內運作。

它擷取三筆房源、查學區。處理到房產 B 時，注意到郡政府記錄裡有個標記：一份待決的分區重劃申請。這不在原始計畫裡。系統決定拉出分區記錄、讀申請細節，發現重新分類可能允許相鄰地塊做輕度商業使用。

它據此調整了比較結果。房產 B 學區很強，但分區風險對重視穩定住宅環境的家庭來說是個大問題。系統更新分析、加入分區發現，呈現結果——但不會擅自做最終推薦：

「根據學區、每月費用和社區穩定性，房產 C 似乎最適合有兩個小孩的家庭。不過，房產 B 擁有評等最高的學區。注意：房產 B 有一份待決的分區重劃申請（案號 #2025-RZ-0482），可能允許相鄰地塊進行輕度商業使用。建議您在做決定前檢視分區細節。需要我調出完整的申請書嗎？」

注意這裡：系統自己規劃步驟、做了臨場調適、用了原本沒被指定的工具，而且知道什麼時候該上報而不是逕行行動。這就是有邊界的 agent 行為——有夠多的自主性處理複雜狀況，又有夠強的約束在高風險決定前踩煞車。

自主性光譜（Autonomy Spectrum）

上面三個版本不是三種不同的產品，而是光譜上的三個點。我們需要的框架不是「助理 vs. agent」，而是五個逐步擴大決策範圍的層級——也就是系統有多大的自由度來選自己的下一步。

層級一——固定流程。 系統照預設步驟跑，人類事先定義工作流程，系統負責執行。適合理解透徹、可以重複的任務。一偏離預期就出問題。

層級二——路由式工作流程。 系統能根據輸入在預定義的路徑間做選擇。分類器或一組規則決定走哪條。比固定流程靈活，但能走的路在設計時就定死了。

層級三——輔助式。 系統幫忙檢索、草擬、分析，但使用者掌控工作序列。人類控制每個下一步。適合研究、分析，以及使用者想直接掌控流程的場景。

層級四——有邊界的 agent。 系統能自己規劃行動序列、選工具，碰到意外資訊也能調適。它在明確邊界內運作：核准的工具清單、支出限制、上報規則，還有高後果行動的強制人工核准。

層級五——長時間執行的自主系統。 系統在極少人類監督下追求目標，跨越長時間自行決策並行動。對今天大多數實際應用來說，還停留在願景階段。層級四到五之間的落差，正是大多數尚未解決的可靠性和安全問題所在。

重點是：光譜不是成熟度階梯，層級五不見得比層級二好。一條能穩定處理房貸申請的固定流程，比一個偶爾送出錯誤報價的全自主 agent 有價值多了。選對層級，要看任務複雜度、工具品質，和犯錯的代價。

工具使用（Tool Use）與 API

從層級一往上，系統都得跟外部服務打交道。不動產的例子裡，這些服務包括 MLS 房源資料庫、學區邊界服務、房貸利率計算器、郡政府分區記錄系統。這些資訊不在系統內部，得向外取。

怎麼取？靠 API（application programming interface，應用程式介面）。API 是程式跟程式之間溝通的結構化方式：請求資料、傳指令、觸發動作。不動產系統查學區時，對學區 API 送一個包含房產地址的結構化請求，收回學區名稱、學校評等、入學資料的結構化回應。

在 AI 系統裡，工具使用（tool use）是指語言模型能判斷什麼時候該呼叫外部 API、怎麼格式化請求。模型本身不執行 API 呼叫——周圍的系統處理實際的網路請求。但「要不要呼叫工具」、「呼叫哪個」、「參數怎麼填」，這些判斷是模型做的。

這既是關鍵能力，也是關鍵限制。沒有房貸計算器工具，系統就算不了月付金額——它只能根據訓練資料裡的模式去猜，而那些模式可能是過時利率。2026 年初，美國 30 年期固定房貸利率大約 6-6.5%，但會波動。如果系統因為訓練資料偏向 2020-2021 年的利率而猜「大約 3%」，估算會嚴重誤導。

換句話說：AI 系統的可靠性上限取決於它能用的工具。有邊界的 agent 搭配高品質、維護良好的工具，能產出值得信賴的結果。同樣的 agent 架構配壞掉或過時的工具，只會產出聽起來很有信心的錯誤。工具品質是系統設計的責任，模型補不了。

語言模型工具使用的相關研究——包括 Schick 等人在 Toolformer（2023）上的工作——已經證明語言模型可以學會辨識自身輸出何時不夠可靠，進而呼叫外部工具。這不是模型「想要」用工具，而是一種學到的模式：面對這類輸入，產生工具呼叫比直接產生文字能帶來更好的結果。

記憶不是單一概念

買家在十則訊息前提到「兩個小孩」，系統得記住這個細節，後面的學區比較才有意義。系統查了三間裡兩間的學區後暫停，它得知道上次做到哪。系統查 MLS 資料庫時，存取的是一個跟任何對話無關的外部知識庫。

三種不同的資訊職責。全部放入「記憶」這頂大帽子底下只會越來越難以管理。拆開來看。

對話記憶（conversation memory）是多輪對話中保留下來的資訊。買家提到「兩個小孩」和「家庭」，就形塑了系統在整個工作階段的優先順序。系統一旦丟了這個上下文——因為對話超過模型的上下文窗口，或工作階段重新開始——它可能轉去優化投資報酬率，而不是家庭適合度。

任務狀態（task state）是追蹤進行中工作流程的結構化資訊。房源已擷取、三間裡兩間的學區已查、房貸計算還沒做。它記的是「做完什麼、還沒做什麼、中間結果在哪」。與其說是記憶，不如說是進度追蹤器。

持久知識（durable knowledge）是存在外部系統裡、比任何對話或任務都更長壽的資訊。MLS 資料庫、學區記錄、郡政府分區檔案——這些是權威的資料儲存。系統從裡面讀，但不該把它們跟自己的「記憶」混淆。系統不是「記得」房產 B 被劃為住宅區，它是去查了那個資料庫。

三種類型的存續期不同、更新規則不同、權威等級也不同。對話記憶是短暫的、使用者專屬。任務狀態是工作階段範疇、系統管理。持久知識是永續的、由外部流程治理。設計記憶不是要給系統「更好的回憶力」，而是釐清哪些資訊該放哪一層、每一層怎麼維護。

後面的文章會再分出第四層——工作記憶（working memory），就是為單一推理步驟組裝的臨時上下文。目前三層夠用了。

核准邊界（Approval Boundaries）：描述、建議、行動

不是所有輸出都承載同樣的風險。呈現事實資料的系統跟提交購買報價的系統，做的是根本不同的事。最實用的思考方式是把系統行動分三個層級。

描述（Describe）。 系統不帶判斷地呈現資訊。「房產 B 位於 Lincoln Elementary 學區。Lincoln Elementary 在 GreatSchools 上的評等為 7/10。」系統只負責報告，人類自己判讀意義。

建議（Recommend）。 系統加入詮釋。「根據學校評等、通勤時間和每月費用，房產 C 似乎最適合您的家庭。不過，請注意房產 B 相鄰地塊有待決的分區重劃。」系統做了判斷，但人類有最終決策權。

行動（Act）。 系統採取有現實後果的動作。「以 385,000 美元加標準附帶條件對房產 C 提出報價。」這改變了現實世界的狀態，產生法律義務，不是改一下 prompt 就能撤銷的。

這三者之間的邊界，是任何有現實影響的系統中最重要的設計決策。今天大多數上線的系統都在「描述」到「建議」的範圍內。進入「行動」就需要明確的人工核准，而這條核准邊界（approval boundary）應該是一級架構組件——不是事後才想到要補的東西。

這個框架跟 NIST AI Risk Management Framework（AI RMF 1.0, 2023）的原則一致。NIST 強調：AI 系統的自主性越高，治理、透明度和人類監督就要越強。描述／建議／行動的分層，就是落實這種比例原則的務實做法。

前面版本三的不動產 agent 正好展示了這一點：它描述了分區發現、建議房產 C 並附帶警示，然後在「行動」前停下。如果系統未經核准就提交報價，那就是跨越了設計上不該允許的邊界。

何時不該使用 Agent

自主性光譜不是一條「從差到好」的進度條。有些情況下，低自主性才是對的。

簡單查詢。 使用者問「Oak Street 42 號掛牌價多少？」一次 API 呼叫加一個格式化回應就夠了。為一個單步驟任務啟動 agent 迴圈去規劃、推理、反思？不只浪費算力，還多了不必要的故障面。

工具不夠可靠時的高風險行動。 如果唯一的分區資料來源不可靠或已過時，讓系統根據它自動調整推薦就很危險。薄弱工具加高自主性，等於自信滿滿的錯誤。

固定流程就能完成的任務。 從三筆 MLS 房源產生標準比較報告，是理解透徹、可以重複的事。固定流程會比每次都重新規劃的 agent 更快、更便宜、更可預測。

法規或合規情境。 有些領域要求決策流程的每一步都必須事先設定好，可供稽核。動態選路徑的 agent 可能在架構上就跟這些要求不相容——不管它決策多好都一樣。

通則：用能可靠完成任務的最低自主性層級。自主性是工具，不是目標。

常見的失敗模式

系統在較高自主性層級運作時，有幾種失敗會一再出現。先認識它們，設計和除錯時才知道從哪下手。

錯誤的工具呼叫。 系統替子任務選了不對的工具。拿分區問題去問學區 API，或送了格式錯的請求給房貸計算器。這不是什麼抽象的推理失敗——系統可能有個合理的計畫——問題出在計畫跟可用工具之間的錯配。工具描述和輸入 schema 得夠精確，模型才選得準。

迴圈（Looping）。 系統在沒有進展的情況下重複同一個動作。查 MLS 資料庫、拿到意外的回應格式、用同樣的查詢重試、拿到同樣的回應、再重試。沒有迴圈偵測或最大迭代次數限制的話，這可以跑到天荒地老——燒資源卻什麼有用的都沒產出。

過早總結（Premature synthesis）。 系統還沒跑完所有子任務就急著給答案。三間房產才查了兩間的學區，就當三間都查完了來寫比較報告。輸出看起來完整，其實缺了資料。這通常發生在模型的訓練傾向偏好「生成流暢結論」勝過「追蹤任務完成度」的時候。

遺漏上報（Missing escalation）。 系統碰到超出能力或權限的狀況卻沒標出來。它發現了房產 B 的待決分區重劃，但只當小註腳，而不是當成應該改變推薦結構的重大發現。系統需要上報——把發現醒目呈現並請人介入——但設計裡缺了觸發機制。

這些不是假設性的邊緣案例。跑 agent 系統的實務經驗一再顯示，工具選錯、無限迴圈和過早終止是最常見的失敗類別。Yao 等人提出的 ReAct 框架（2022）——交錯推理步驟與行動步驟——設計目的之一就是緩解過早總結：強制模型在產生下一個動作前，先對觀察結果做明確推理。不過這個框架沒有消除這些失敗，只是讓系統更結構化，使失敗更容易被觀察和除錯。

本文未涵蓋的內容

這篇不講 agent 迴圈在機制面怎麼運作——工具呼叫怎麼格式化、觀察結果怎麼回饋給模型、停止條件怎麼評估。那些實作細節很重要，但屬於另一個層次。

不涵蓋進階檢索策略、embedding 模型或向量資料庫。那些在第 0-3 篇已經引介，主系列會進一步展開。

不主張 agent「從經驗中學習」——也就是在使用過程中更新自身參數。有邊界的 agent 發現分區標記後調整計畫，它是在當前上下文中回應新資訊，不是在重新訓練自己。這個區分很重要：工作階段內的調適是系統行為，跨工作階段的學習是訓練行為。混淆了會讓人對已部署系統的能力產生不切實際的期待。

也不主張「自主性越高越好」。光譜框架的重點就在：正確的自主性層級是設計決策，不是終點。

接下來的方向

你已經看到一個不動產助理怎麼從簡單問答，演進到能規劃、能調適、知道何時該踩煞車的有邊界 agent。自主性光譜、工具使用（tool use）、記憶層、核准邊界（approval boundary）——這些就是我們思考這類系統的概念詞彙。

那麼，當所有概念匯聚在一個真實產品裡，實際上會長什麼樣？下一篇會看一個完整的系統：檢索、工具使用、記憶和核准邊界協同運作——不是各自獨立的功能，而是一套真正整合的架構。

本文引介的關鍵術語

術語 — 定義

助理（Assistant, AI） — 一種互動模式，系統協助使用者執行任務，通常回應明確指令，並在各步驟之間等待指示

工作流程（Workflow） — 一個預先定義的步驟序列，控制邏輯固定在程式碼中；模型在有限步驟內運作，但不選擇序列

Agent（AI Agent） — 一個能夠規劃自身行動序列、選擇工具，並在定義的邊界內調適新資訊的系統

自主性光譜（Autonomy spectrum） — 一個五層級框架（固定流程、路由式工作流程、輔助式、有邊界 agent、長時間執行的自主系統），用於描述系統對自身執行的掌控程度

API — Application programming interface（應用程式介面）——一種結構化的方式，讓一個程式透過請求資料、傳送指令或觸發動作來與另一個程式溝通

工具使用（Tool use） — 語言模型判斷何時呼叫外部服務以及如何格式化請求的能力

對話記憶（Conversation memory） — 在對話的多個回合中保留的資訊，例如使用者偏好或已陳述的條件限制

任務狀態（Task state） — 追蹤進行中工作流程的結構化資訊——已完成的、尚未完成的，以及可用的中間結果

持久知識（Durable knowledge） — 外部系統（資料庫、記錄）中的資訊，獨立於任何對話或任務工作階段而持續存在

核准邊界（Approval boundary） — 決定系統能夠描述、建議或行動的架構決策點——以及何處需要人工核准

描述／建議／行動（Describe / Recommend / Act） — 系統輸出的三層級階層，依現實世界後果遞增、人類掌控遞減排序

參考文獻與延伸閱讀

Yao, S., Zhao, J., Yu, D., Du, N., Shafran, I., Narasimhan, K., & Cao, Y. (2022). "ReAct: Synergizing Reasoning and Acting in Language Models." *arXiv preprint arXiv:2210.03629*. Introduced the framework for interleaving reasoning traces with tool actions in language model agents. arxiv.org/abs/2210.03629

Schick, T., Dwivedi-Yu, J., Dessì, R., Raileanu, R., Lomeli, M., Hambro, E., Zettlemoyer, L., Cancedda, N., & Scialom, T. (2023). "Toolformer: Language Models Can Teach Themselves to Use Tools." *NeurIPS 2023; arXiv:2302.04761*. Demonstrated that language models can learn to invoke external tools when their own outputs would be unreliable. arxiv.org/abs/2302.04761

National Institute of Standards and Technology. (2023). *AI Risk Management Framework (AI RMF 1.0)*. NIST AI 100-1. Provides governance principles for AI systems, including proportional oversight as autonomy increases. nist.gov/itl/ai-risk-management-framework

Zaharia, M., Khattab, O., Chen, L., Davis, J. Q., Miller, H., Potts, C., Zou, J., Carbin, M., Frankle, J., Rao, N., & Ghodsi, A. (2024). "The Shift from Models to Compound AI Systems." *Berkeley AI Research Blog*. Argues that state-of-the-art AI results increasingly come from multi-component systems rather than monolithic models. bair.berkeley.edu/blog/2024/02/18/compound-ai-systems

Kapoor, S., Stroebl, B., Siegel, Z. S., Nadgir, N., & Narayanan, A. (2024). "AI Agents That Matter." *Princeton University; arXiv:2407.01502*. Analyzes agent evaluation methodology, documenting how benchmarking shortcomings -- including cost-accuracy trade-offs, reproducibility problems, and overfitting to benchmarks -- obscure real-world agent performance. arxiv.org/abs/2407.01502

AI 助理、AI Agent，以及兩者之間的一切

LLM Foundations

為什麼 LLM 需要幫助 — 幻覺、Grounding，以及系統設計的必要性

AI 驅動的客戶支援 — 從聊天機器人到智慧型系統