Omne:通過多智能體合作 解決AI長期記憶能力並提高AI推理能力

長期記憶(LTM)是AI自進化的核心,它允許模型通過與環境的持續交互,累積並存儲經驗數據。這些數據可以在未來的任務中被模型使用,從而增強模型在新環境中的應對能力。

盛大AI團隊與普林斯頓大學聯合提出了一套系統化的數據採集框架Omne多代理框架,用於構建LTM。該框架能夠從模型與外界的交互中收集多樣化、個性化的數據,包括數字痕跡、行為數據、生物特徵等。這些數據在經過處理和整理後,能夠有效存儲在LTM中。

Omne旨在通過多個智能體之間的協作、信息共享和長期記憶(LTM)的應用,促進 AI 系統的自我進化和個性化優化。

Omne的每個智能體都擁有相同且獨立的系統結構,能夠自主學習並存儲完整的世界模型,從而獨立構建對環境的理解。通過這種基於LTM 的協作開發,AI 系統能夠實時適應個體行為的變化,優化任務規劃與執行,進一步推動個性化與高效的AI 自我進化過程。

OMNE 框架在全球AI代理基準測試系統 GAIA(Global Artificial Intelligence Agent Benchmark)中在GAIA智能體系排行榜上榮登榜首,超越了眾多頂尖研究機構,包括微軟研究院的相關框架。

這是自去年盛大集團創始人、前中國互聯網大佬陳天橋宣佈All In AI戰略以來,盛大AI團隊取得的一項重大成果。

OMNE 框架的核心概念

  • 多智能體系統(MAS):OMNE 是一個典型的多智能體系統(Multi-Agent System, MAS),它由多個獨立的智能體組成。這些智能體可以各自執行不同的任務,並通過共享信息和知識來相互協作,增強整體系統的能力。
  • 智能體的獨立性與協作:在 OMNE 框架中,每個智能體都是一個相對獨立的個體,擁有自己的長期記憶(LTM)和任務處理能力。儘管它們獨立運行,但能夠通過一個中央協調機制共享數據和信息,從而提高系統在不同任務中的綜合表現。

OMNE 的核心功能和特點:

  1. 多智能體協作機制

    • 在 OMNE 框架中,多個智能體共同工作,每個智能體都有獨立的長期記憶(LTM),並能夠根據自己的交互經驗學習和優化。這些智能體之間可以共享數據、經驗和知識,進一步增強系統的整體性能。
    • 這種多智能體系統允許智能體之間協同工作,分工處理不同的任務,充分發揮各自的優勢,從而能夠更好地應對複雜和多樣化的任務環境。
  2. 個性化與動態調整

    • OMNE 框架中的每個智能體通過自己的LTM數據與外部環境互動,並逐漸形成個性化的學習路徑。這意味著每個智能體可以在不同的任務場景中逐步進化,具備個性化處理能力。
    • 這種個性化不僅在於不同智能體之間的能力差異,還體現在單個智能體能夠根據任務要求進行自我調整,使其能夠持續適應動態變化的環境和個體需求。
  3. 數據共享與信息協作

    • OMNE 允許智能體之間共享信息、數據和學習成果。這種共享機制能夠大幅提升系統的整體表現。例如,當一個智能體在某一任務中積累了有價值的知識,其他智能體可以通過信息共享直接受益,減少重覆學習的成本,提升學習效率。
    • 這種信息共享還能夠解決單個智能體在面臨數據稀疏或未知任務時的挑戰,通過協作和信息交換使系統具備更強的魯棒性和泛化能力。
  4. LTM在OMNE中的應用

    • OMNE 的智能體依賴長期記憶(LTM)來存儲和管理它們在與環境長期交互過程中所獲得的數據。LTM 在 OMNE 中充當了關鍵的機制,使智能體能夠通過積累和利用歷史數據不斷優化自身的推理、決策和行為能力。
    • LTM 數據不僅為單個智能體提供了持續學習的基礎,還能夠通過智能體之間的分享,幫助整個系統共同進步。
  5. 適用於多場景和複雜任務

    • OMNE 框架特別適用於那些需要多個智能體協作、長期學習和動態調整的複雜任務場景。例如,在醫療、金融、智能辦公等應用領域,OMNE 可以通過個性化智能體的協作與長期記憶數據的使用,提供更精確、更高效的決策支持。
    • OMNE 在 GAIA 基準測試中取得了優異成績,證明了這種多智能體協作和自進化機制在實際應用中的強大潛力。

OMNE 框架的技術架構

OMNE 框架基於 OpenAI 的 GPT-4oo1-preview 開發。OMNE 使用了這兩個模型作為基礎,同時還配備了四個工具:Web 瀏覽器、必應搜索引擎、基於 LlamaParse 的文件讀取器,以及一個利用 o1-preview 構建的邏輯專家​。

OMNE 中的每個智能體獨立運行,同時基於 GPT-4o 和 o1-preview 的能力進行個性化學習。OMNE 的多智能體架構允許各智能體在不同任務下相互協作,從而實現整體系統的自我進化。

對GPT O1-preview的優化

Omne框架對GPT O1-preview版本進行了優化,特別是工具調用機制的改進,顯著提升了系統的推理能力。

Omne 框架對工具調用機制進行了專門的優化,這項改進主要表現在以下幾個方面:

  • 智能工具選擇

    • GPT O1-preview 模型內置了多個工具接口,Omne 框架通過智能工具選擇機制,使模型能夠自動判斷任務需求,選擇合適的外部工具來完成特定任務。
    • 這避免了模型單獨依賴自身能力進行複雜計算時可能出現的效率低下或誤差增大的問題。通過調用合適的工具,模型能夠迅速完成複雜任務,如數據處理、推理分析、或信息檢索。
  • 動態工具調用

    • 傳統的工具調用系統往往依賴靜態規則,Omne 框架通過引入動態工具調用機制,允許模型根據實時任務需求和環境變化靈活地調用工具。
    • 例如,針對某些任務,模型可能需要調用不同的工具模塊來處理文本、圖像或數據分析,Omne 的動態調用機制確保了工具調用的高效性和靈活性。
  • 多步推理與工具集成

    • Omne 框架優化了 GPT O1-preview 在處理多步推理任務時的工具集成能力。模型在處理複雜任務時,往往需要分階段調用多個工具。
    • Omne 框架通過優化工具集成流程,確保模型可以在一個任務的不同階段根據需要自動切換工具,從而避免中斷或效率下降。
  • 工具調用記憶

    • 通過長期記憶模塊(LTM),Omne 框架能夠記住模型過去在特定任務中調用過的工具,並在未來的相似任務中快速複用這些工具調用路徑。
    • 這種記憶功能減少了重覆計算的需要,並通過優化工具調用路徑提升了模型的推理速度和準確性。

推理能力的顯著提升

Omne 框架的工具調用機制優化極大提升了 GPT O1-preview 的推理能力,主要體現在以下幾個方面:

  • 處理複雜任務的能力

    • 通過優化工具調用機制,GPT O1-preview 能夠更加高效地處理複雜任務。這些任務包括跨領域的推理、多模態數據分析(如文本、圖像和語音的綜合處理)以及多步推理問題。
    • 工具調用機制的優化確保了模型在面對複雜任務時,不僅依賴內部的模型推理,還能夠通過外部工具快速找到最佳解決方案。
  • 推理速度的提升

    • 優化後的工具調用機制大大減少了模型的推理時間。以前,模型在處理複雜問題時可能需要大量的內部計算資源,而現在,通過調用外部工具,推理任務得以分解並更快完成。
    • 這一機制顯著加快了模型的響應速度,特別是在實時處理任務(如在線客服或實時分析)中表現尤為出色。
  • 多任務處理能力

    • 工具調用機制的優化還增強了模型的多任務處理能力。Omne 框架允許模型在多個任務之間無縫切換,並調用適合每個任務的工具。
    • 這一機制使得模型能夠同時處理不同類型的任務,並根據任務需要靈活調用特定工具,從而提高了整體系統的效率和準確性。

四個工具

  • Web 瀏覽器:OMNE 的智能體能夠使用瀏覽器訪問互聯網,從而在實時環境中獲取和驗證最新的信息。這使得 OMNE 能夠動態調整其模型行為,並在需要時更新長時記憶。
  • 必應搜索引擎:通過與搜索引擎集成,OMNE 可以實時從網絡中提取最新的信息,尤其是在需要快速更新或驗證特定知識時。這種搜索引擎的使用進一步提升了模型的適應性。
  • 基於 LlamaParse 的文件讀取器:LlamaParse 是一種高級的文本解析器。OMNE 通過文件讀取器工具,可以讀取、分析和處理結構化或非結構化文檔數據,並將其內容集成到模型的 LTM 中。
  • 邏輯專家(基於 o1-preview):OMNE 還利用 o1-preview 模型構建了一個邏輯專家系統,用於處理複雜的推理任務和邏輯判斷。這個邏輯專家模塊使 OMNE 在多智能體協作中具備更高的邏輯推理能力,有助於實現個性化和動態任務規劃。

OMNE 框架的架構

OMNE 框架的架構由由多個關鍵組件組成,這些組件協同工作以實現智能體之間的高效協作和任務處理:

  • 長期記憶模塊(Long-Term Memory, LTM):每個智能體都有自己的長期記憶模塊,能夠積累其在特定任務或環境中的交互數據。LTM允許智能體從歷史數據中學習,並在未來任務中利用這些經驗優化決策。
  • 任務分配與協作機制:OMNE 通過一個智能的任務分配系統,將不同的任務自動分配給最適合的智能體。這個機制確保每個任務都能得到最佳處理,並避免資源的浪費或任務衝突。
  • 中央協調器:中央協調器(central coordinator)在智能體之間扮演調解角色,管理信息共享和任務協作。它確保每個智能體的任務和知識被有效整合,使系統整體的表現優於每個單獨的智能體。
  • 多模態輸入處理:OMNE 可以處理來自不同來源的多模態輸入(如文本、圖像、語音等)。每個智能體可以針對特定的輸入模態進行處理,然後與其他智能體合作解決複雜任務。
  • 自適應優化:OMNE 內部包含自適應優化機制,智能體能夠根據任務需求和環境的變化,自動調整其策略。每個智能體都可以實時優化其處理方式,從而提高效率。

OMNE 框架中的智能體類型

OMNE 框架內的智能體根據任務不同,分為不同類型,每個智能體在系統中的角色各有側重。以下是幾個典型的智能體類型:

  • 決策智能體(Decision Agent):負責高層決策和策略製定,通常處理複雜的推理任務,並為其他智能體提供指導。
  • 信息智能體(Information Agent):主要處理數據檢索、信息收集和存儲任務。該智能體與長期記憶模塊緊密結合,確保系統能夠快速訪問並利用之前的經驗數據。
  • 執行智能體(Execution Agent):負責具體的任務執行,如對用戶請求的直接響應、處理訂單、調度任務等。執行智能體通過協調其他智能體的輸出來完成最終的任務目標。
  • 協同智能體(Collaboration Agent):專注於多個智能體之間的協調和通信,確保各個智能體能夠有效協作並實現最佳任務分配。

OMNE 在 GAIA 基準測試中的表現

OMNE 框架在全球AI代理基準測試系統 GAIA(Global Artificial Intelligence Agent Benchmark)中取得了卓越成績,超越了眾多頂尖的AI系統:

  • GAIA 基準測試:GAIA 是由 Meta AIHugging FaceAutoGPT 聯合推出的全球智能體基準測試,旨在評估AI代理系統的多方面能力,包括推理、工具調用、多模態處理和決策能力。
  • OMNE 的表現:在這些基準測試中,OMNE 展現了極高的智能體協作效率和推理能力,特別是在複雜任務分解、數據處理和工具使用方面的表現遠超競爭對手。OMNE 的工具調用機制優化是其能夠超越其他AI系統的關鍵因素之一。

應用案例

OMNE 框架應用主要集中在醫療領域,尤其是通過長時記憶(LTM)和多智能體系統的集成來實現 AI 的自我進化和高效任務處理。以下是 OMNE 框架在醫療應用中的一些關鍵案例:

1. 醫學診斷和自我進化

  • OMNE 框架在模擬醫療場景中被用於 增強診斷 AI 的自我能力。論文中提出的 MedAgent-Zero 方法,結合了 LTM 進行醫療記錄積累、醫學經驗反思和基於 RAG 的 LTM 利用​​。
  • 具體來說:
    • 醫療記錄積累:醫生代理通過與虛擬病人的互動,積累成功的診斷案例,形成基於文本的 LTM 數據,就像真實世界的醫生通過病曆積累知識一樣。這些數據為未來類似問題的診斷提供了決策支持​。
    • 醫學經驗反思:當醫生代理在診斷中出錯時,它會通過反思機制生成經驗性 LTM 數據。反思過程包括原始問題、模型的回答及正確答案。這種自我反思能力可幫助模型更好地理解和改進未來的決策​。
    • RAG 基於 LTM 的利用:醫生代理在解決新問題時,首先從 LTM 中檢索到類似案例,並根據這些案例進行推理。這種方式在不需要參數更新的情況下,通過在線學習和推理實現高效的 LTM 數據應用,增強了模型的診斷能力​。

2.多語言適應性與推理能力

  • OMNE 框架被用於測試模型在不同語言環境中的適應能力,特別是法語和中文數據集上的推理性能。通過更新模型的權重,OMNE 成功適應了新的語言分佈模式,並顯著降低了對應測試集上的困惑度(perplexity),顯示出其強大的語言適應能力​。
  • 此外,OMNE 的長時記憶機制在這些多語言實驗中被證明可以有效地防止災難性遺忘(catastrophic forgetting),即模型在適應新數據分佈後仍能保留對原始數據的泛化能力​。

3. 複雜任務規劃與內存利用

  • OMNE 框架在複雜任務規劃中採用了 上下文學習(In-Context Learning, ICL) 技術。通過利用 LTM,框架可以在不同任務上下文中檢索和應用相關的歷史經驗,提高任務規劃的效率和效果​。
  • 例如,在實際業務應用中,OMNE 可以預先規劃多種任務,並在實際推理中調用已存儲的任務規劃結果,從而實現快速的任務處理和響應。這種內存利用方法大大提升了 AI 系統的實際操作效率​。

4. 診斷對話系統中的心理健康應用

  • OMNE 框架還被應用於心理健康診斷對話系統中,通過 LLM 生成的合成數據和 OMNE 的多智能體協作,實現了對多種心理疾病的準確診斷​。
  • 特別是對於精神疾病的診斷,OMNE 通過構建 動態診斷樹 來模擬實際的診斷過程,該樹包括固定的症狀詢問樹和動態的經驗詢問樹。結合長時記憶的利用,系統能夠更深入地與患者互動,提高診斷的準確性和完整性​。

據悉,目前盛大已經建立起了一支上百人的優秀AI工程師團隊,還在全球持續招募。陳天橋旗下的科研機構天橋腦科學研究院,也與Science雜誌推出了全球AI驅動科學大獎,以及舉辦各種高水平國際會議、夏校,持續培養青年AI跨學科人才。

論文:https://arxiv.org/pdf/2410.15665