質量超越o1,成本僅4%,UCSD張怡穎教授團隊開源生成式AI工作流自動優化器

AIxiv專欄是機器之心發佈學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯繫報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

近幾年在生成式 AI 技術和商業創新飛速發展的背景下,創建高質量且低成本的生成式 AI 應用在業界仍有相當難度,主要原因在於缺乏系統化的調試和優化方法。

近日,UCSD 張怡穎教授的 GenseeAI 團隊推出了首款可自動提升 AI 工作流生成質量並降低生成成本的工具 Cognify。Cognify 可以自動優化 AI 工作流,支持 LangChain、DSPy、Python 等語言框架。Cognify 的核心思路是一種創新的分層工作流級優化方法。Cognify 可將生成式 AI 應用的生成質量提高多達 48%,並將執行成本降低多達 90%。Cognify 現已開源。

開源地址:https://github.com/GenseeAI/cognify

生成式 AI 工作流

當前的生成式 AI 產品通常都是以生成式 AI 工作流的形式構建和部署。AI 工作流內部可以調用各類 AI 模型、工具、數據源及其他類型的系統。典型的 AI 工作流包括 Agent 工作流和 LLM+RAG 等。

與單次調用 AI 模型相比,AI 工作流提供了更強大、可定製和集成化的解決方案。當前業界的 AI 工作流通常由工程師編寫。在部署之前,工程師需要手動調整 AI 工作流的結構和提示詞(prompt),並為工作流中的各個步驟選擇合適的模型。

然而,由於缺乏系統化的調優方法,AI 工作流的部署經常非常耗時,已部署的工作流也可能面臨質量不佳、不穩定或成本太高等問題。雖然有許多生成式 AI 工作流的開發框架,比如 Coze,Dify,LangChain,DSPy 和 Claude MCP,但是並沒有可以幫助開發者係統調試和優化工具。

Cognify 優化器

Cognify 是一款全面、多目標的開源 AI 工作流優化器。Cognify 的優化過程基於自動選擇 AI 模型、改進工作流結構和增強提示詞。Cognify 實現了工作流的多目標優化,包括提高生成質量和低生成成本。

對於不同的應用場景,Cognify 都用相同或更小的模型達到了更高的生成質量,推動了質量 – 成本 Pareto 邊界,並且允許用戶選擇不同的質量 – 成本組合(結果如下圖所示)。在此過程中,Cognify 的優化實現了「一鍵」全自動化。

同時,Cognify 也允許用戶自定義優化方法 Cogs(Cognify 把各種優化統稱 Cog),備選模型種類,以及最多優化次數。Cognify 目前支持 LangChain、LangGraph、DSPy 和基於 Python 開發的工作流

Cognify 核心技術

全局級別的工作流超參數調優

Cognify 的核心理念是對整個工作流進行優化,而不是在每個單獨的工作流組件中進行優化。由於上遊組件的生成結果對下遊組件的性能有重大影響,孤立的優化各個組件可能導致最終生成質量不佳,而且整體運行成本增加。

Cognify 通過實驗各種 Cog 組合,並通過最終生成的質量評估這些組合的效果,從而優化整個工作流。

在整體工作流優化中,一個關鍵挑戰是優化成本,包括模型運行成本和耗時。一個簡單的做法是對每個可能的 cog 組合進行網格搜索,但這會導致指數級增長的優化成本。為瞭解決這個問題,Cognify 採用了兩種策略。

首先,Cognify 將工作流視為一個優化對象,並將所有可能的 Cog 視為其超參數 (hyperparameter)。Cognify 為工作流超參數設計了一套新的貝葉斯優化器(Bayesian Optimizer),用於調優這些工作流超參數。特製的優化器能夠有效探索 cog 組合空間。其次,Cognify 將 cog 分為兩層:外循環包含更改工作流結構的 cog(例如添加或移除組件或重新排列它們的順序),內循環包含不影響工作流結構的 cog(例如提示詞調優和模型選擇)。這種雙層方法減少了貝葉斯優化器需要探索的整體搜索空間。

CogHub:AI 工作流優化器集合

與 Cognify 同時推出的是 CogHub——一個開源 cog 集合。就像 HuggingFace 集合了開源的模型,CogHub 集合了開源的 AI 工作流優化方法。CogHub 在被 Cognify 內部調用的同時也面向程序員或未來的生成式 AI 工具。

CogHub 現支持以下五種 cogs:

  • 任務分解 (Task Decomposition)(外循環):將一個任務(一次 LLM 調用)分解為多個細分的子任務(多次 LLM 調用)。

  • 任務集成 (Task Ensemble)(外循環):構建並結合多個模塊來完成任務。

  • 多步推理 (Multi-step Reasoning)(內循環):要求 LLM 逐步推理。

  • 少樣本學習 (Few-shot Learning)(內循環):從輸入樣本中添加一些高質量的示例演示。

  • 模型選擇 (Model SelectioN)(內循環):評估不同的模型。

優化案例

以下是一個數據可視化任務的例子。任務目標是由手機銷售數據生成針對每個廠商每個季度的銷量的箱型圖,並計算每個手機商的銷售平均值,最終用平均值線表示。

下圖展示了幾個生成圖的對比, 1) 人工畫的基準圖,2) 直接詢問 OpenAI o1,3) 直接運行 MatPlotAgent 工作流,4) DSPy 優化過的工作流,以及 5) 由 Cognify 優化過的工作流。Cognify 優化過的工作流返回的結果幾乎與基準圖吻合,質量顯著優於其他方案。與此同時,Cognify 優化過的工作流的運行成本僅有 o1-preview 的 4%。

圖 A:人工畫的基準

圖 A:人工畫的基準

圖 B:GPT o1-preview 的生成圖

圖 B:GPT o1-preview 的生成圖

圖 C:原生成式 AI 工作流的生成圖

圖 C:原生成式 AI 工作流的生成圖

圖 D:DSPy 優化過的生成式 AI 工作流生成圖

圖 D:DSPy 優化過的生成式 AI 工作流生成圖

圖 E:Cognify 優化過的生成式 AI 工作流生成圖

圖 E:Cognify 優化過的生成式 AI 工作流生成圖

GenseeAI 簡介

GenseeAI(gensee.ai)是由 UCSD 張怡穎教授帶領的初創公司。GenseeAI 致力於生成式 AI 工作流優化、部署、推理和基礎平台創建,目前已在多家世界 500 強公司推廣初期產品。張怡穎教授師從圖領獎得主 David Patterson 學門,是計算機系統領域的國際頂尖專家,獲得業界和學術界多項大獎和廣泛認可。GenseeAI 的其他核心團隊來自於美國Google和 Snap 等高科技公司,具有開發和運營日活躍用戶上億級別的 AI 產品的經驗。