Claude都能操縱計算機了，吳恩達：智能體工作流越來越成熟

11月15日 12:3411月15日 12:40 新浪網 tech-auto-hilite

機器之心報導

編輯：小舟

受 ChatGPT 強大問答能力的影響，大型語言模型（LLM）提供商往往優化模型來回答人們的問題，以提供良好的消費者體驗。

隨著智能體研究日趨成熟，優化似乎有了新的方向。

人工智能著名學者、史丹福大學教授吳恩達今天指出：「現在有一種趨勢是優化模型以適應智能體工作流程，這將為智能體性能帶來巨大提升」，並撰寫一篇博客簡單闡述了這種趨勢。

Claude都能操縱計算機了，吳恩達：智能體工作流越來越成熟

我們對博客內容進行了不改變原意的編譯、整理，以下是博客內容：

繼 ChatGPT 在回答問題方面取得突破性成功之後，許多 LLM 的開發都集中在提供良好的消費者體驗上。因此，LLM 被調整為回答問題或遵循人類提供的指令。指令調整指導模型的數據集很大一部分可以為人類編寫的問題和指令提供更有用的答案，面向 ChatGPT、Claude、Gemini 等等。

但智能體工作負載不同，人工智能軟件不是直接為消費者生成響應，而是應該在迭代工作流程中：

反思自己的輸出；
使用工具；
編寫規劃；
在多智能體環境中進行協作。

主要模型製造商也越來越多地優化用於 AI 智能體的模型。

以工具使用（或函數調用）為例。如果 LLM 被問及當前天氣，它將無法從訓練數據中獲取所需的信息。相反，它可能會生成 API 調用請求以獲取該信息。甚至在 GPT-4 原生支持函數調用之前，應用程序開發人員就已經使用 LLM 來生成函數調用，通過編寫更複雜的提示來告訴 LLM 哪些函數可用，然後讓 LLM 生成用於確定是否要調用函數的字符串。

在 GPT-4 之後，生成此類調用變得更加可靠，然後許多其他模型本身就支持函數調用。如今，LLM 可以決定調用函數來搜索信息以進行檢索增強生成 (RAG)、執行代碼、發送電子郵件、在線下訂單等等。

最近，Anthropic 推出了升級版的 Claude 3.5 Sonnet，能像人一樣使用計算機。這意味著 LLM 原生使用計算機方向向前邁出了一大步，將幫助許多開發人員。一些團隊還致力於讓 LLM 使用計算機構建新一代 RPA（機器人流程自動化）應用程序。

隨著智能體工作流程的成熟，我看到的是：

首先，許多開發人員正在 prompt LLM 來執行他們想要的智能體行為。這樣可以進行快速、豐富的探索！
在極少數情況下，開發非常有價值的應用程序的開發人員將微調 LLM，以更可靠地執行特定的智能體功能。例如，儘管許多 LLM 本身支持函數調用，但它們是通過將可用函數的描述作為輸入，然後（希望）生成輸出 token 以請求正確的函數調用來實現這一點的。對於生成正確函數調用非常重要的任務關鍵型應用程序，針對應用程序的特定函數調用微調模型可顯著提高可靠性。（但請避免過早優化！我仍然看到太多團隊在進行微調，而他們可能應該在採取這種做法之前花更多時間進行 prompt。）
最後，當諸如工具使用或計算機使用之類的能力對開發人員來說似乎很有價值時，主要的 LLM 提供商正在將這些能力直接構建到他們的模型中。儘管 OpenAI o1-preview 的高級推理對消費者有幫助，但我預計它對於智能體推理和規劃會更有用。

大多數 LLM 都針對回答問題進行了優化，主要是為了提供良好的消費者體驗，我們已經能夠將它們「移植」到複雜的智能體工作流程中，以構建有價值的應用程序。為支持智能體中的特定操作而構建 LLM 的趨勢將為智能體性能帶來很大提升。我相信，在未來幾年內，在這個方向上將實現巨大的智能體能力提升。

原文鏈接：

https://www.deeplearning.ai/the-batch/issue-275/