整合長期記憶,AI實現自我進化,探索大模型這一可能性

機器之心報導

編輯:Panda、小舟

地球上最早的生命證據至少可以追溯到 35 億年前,而直到大約 25 萬到 40 萬年前,智人才出現地球上。在這漫長的歲月中,生物不斷地興盛又覆滅,但整體趨勢總是越來越複雜,其中最複雜的生物組件莫過於我們智人的大腦。這樣的複雜性是我們的意識和智慧的來源。而這一切背後的機制是進化(evolution)。

到了現今的大模型時代,強大的基礎模型已經展現出了強大的智能水平,能完成多種多樣的任務。但它們也有個缺點,訓練之後就基本定型了,難以隨著用戶的使用而演進。但毫無疑問,這項能力很重要。

近日,天橋腦科學研究院和普林斯頓大學等多所研究機構發佈了一篇研究論文,詳細闡述了長期記憶對 AI 自我進化的重要性,並且他們還提出了自己的實現框架 —— 基於多智能體的 Omne,其在 GAIA 基準上取得了第一名的成績。

  • 論文標題:Long Term Memory : The Foundation of AI Self-Evolution

  • 論文地址:https://arxiv.org/pdf/2410.15665

首先,該團隊將 LLM 的模型進化過程分成了三個主要階段

  • 階段 1:在物理世界中積累認知。

  • 階段 2:在數字世界中構建基礎模型。

  • 階段 3:模型自我進化,以實現更強大的智能。

現有的研究主要圍繞著階段 1 和 2,即如何構建更好的數據以及將其用於訓練更強大的基礎模型。目前人們有一個普遍的看法:在這種曲線擬合範式中,架構並不重要,關鍵的因素是數據集。但到了階段 3,架構就會變得和數據一樣重要。核心的難題是如何在統計模型的基礎上有效表達少數個體的數據。該研究關注的核心是如何確保在統計模型內有效地表達個體數據。

實現模型自我進化的原理

模型的自我進化能力是模型長期適應和個性化的關鍵,而這又嚴重仰賴於有效的記憶機制。

在這一理解的基礎上,該團隊提出:長期記憶(LTM)能為模型的持續進化提供歷史數據積累和經驗學習能力。正如人類通過經驗和記憶來完善認知和行為一樣,LTM 也能讓模型在處理長期、分散和個性化的數據時逐步提升推理和學習能力。

  • 用 LTM 數據提升模型能力,使其能夠自我進化

在傳統 LLM 中,更新模型通常需要調整所有參數,而如果目的是處理個體數據,那這種操作明顯不切實際。

一種更優的方法是僅更新局部參數,從而在無損模型全局穩定性的前提下,讓模型適應稀疏、個性化的 LTM 數據。這種方法可解決當前模型中個體數據「被平均化」的問題,使個性化信息能夠更全面地表達。使用上下文學習(ICL)的檢索增強生成(RAG)和用於微調的低秩適應(LoRA)等技術都可被視為局部更新個體數據的方法。

該團隊的做法是採用一種混合策略來整合 LTM 數據,從而在實際應用中達到讓人滿意的結果。但是,該團隊也表示,這可能並非一種完美的解決方案,未來可能還會出現更好的方法。

  • 組合 LTM 數據進行實時權重更新,從而實現自我進化

當前的 LLM 通常分為訓練和推理兩個階段。在推理階段,模型權重是凍結的,防止模型根據新輸入進行調整和學習。這種固定的推理過程會限制模型的適應性,尤其是在處理個性化任務和實時學習方面。

受人腦更新機制的啟發,該團隊認為未來的 LLM 應該將推理和訓練與 LTM 結合起來,使模型能夠在接收到新信息時動態調整權重。這就類似於人類的持續學習能力。

此外,這種集成還可以幫助模型在面對複雜的推理任務時自我反思並糾正錯誤的推理路徑,從而提高準確性和效率。

這種動態的自我調整能力將大大提升模型的個性化能力和長期進化潛力。通過長期記憶,模型不僅可以從短期記憶中學習,還可以從歷史數據中提取有價值的見解,隨著時間的推移能更深入地理解個人偏好和行為模式。這種理解可實現模型的個性化定製和動態調整,使模型能夠更有效地進化。特別是在面對新的或極端的情況時,長期記憶使模型能夠參考過去的經驗,快速做出調整併自我進化,從而獲得更大的靈活性和適應性。

長期記憶在模型自我進化中的實現路徑

該團隊首先將給出 AI 自我進化和 LTM 的定義,然後探索 LTM 在 AI 自我進化中的關鍵作用,之後會介紹如何使用 LTM 來實現 AI 自我進化。

他們做出了以下貢獻:

  • 給出了 AI 自我進化和 LTM 的定義;

  • 提出了一個用於 LTM 的數據框架,包括數據收集、分析與合成;

  • 提出了一個用於 LTM 的多智能體協作開發框架。

 AI 自我進化的基礎

這裏簡要給出 AI 自我進化的定義,詳情請參閱原論文。

AI 自我進化是指 AI 模型使用個性化數據不斷學習和優化,實現多智能體協作和認知方面的突破。該過程基於一個共享式內核架構,其中各個模型通過處理個性化經驗和數據不斷進化,從而提升自身推理能力和適應能力,最終實現在動態環境中的自主學習和持續進化。

要實現 AI 自我進化,需要:

  • 多智能體協作機制

  • 差異化的個性化模型

  • 自我糾錯和評估機制

  • 長期記憶和學習能力

用於 AI 自我進化的 LTM

目前,LLM 主要通過兩種記憶機制來管理信息:上下文存儲器和基於壓縮的參數存儲器。雖然這些機制在短期任務中表現出色,但它們在支持長期自主學習和進化方面仍然存在不足。

正如人類使用 LTM 來塑造他們的行為和身份一樣,人工智能系統也可以採用類似的方法根據「個人數據」定製其響應和行為。這裏,「個人數據」不僅限於個人用戶,還包括特定的機構和領域,允許模型根據更廣泛的個人背景和需求調整其響應和行為。

作者深入探討了 LTM 在 AI 自我進化中所發揮的關鍵作用,首先在 AI 自我進化的背景下定義了 LTM,並分析了當前 LLM 記憶機制的缺點。然後,作者討論了通過從人類 LTM 特徵中汲取靈感來增強人工智能模型的自我進化能力,旨在構建能持續學習和自我完善的人工智能系統。

該研究將 AI 自我進化中的 LTM 定義為:

LTM 是人工智能系統可以長期保留和利用的信息,使模型能夠根據更廣泛的背景調整其響應和行為。

這裏,「個人數據」不僅限於個人用戶,還包括特定的機構和領域,允許模型根據更廣泛的個人背景和需求調整其反應和行為。

從數據積累的角度來看:模型和人類都與環境進行廣泛的交互,為個性化提供基礎數據。與人類相比,人工智能模型可以更有效地與環境交互,並且可以在純虛擬的數字環境中執行這些交互和迭代。因此,通過設計適當的記憶細化策略,模型應該能夠像人類一樣積累長期記憶,甚至可能具有更高的效率和規模。

從模型更新的角度來看:人工智能擅長存儲和調用海量數據,遠遠超過人類記憶規模。神經網絡通過分佈式參數管理這些數據,處理來自不同領域的輸入。然而,這種存儲相對剛性,缺乏實時更新的靈活性,通常需要重新訓練才能實現更新。相比之下,人類的記憶力卻非常強。

LTM 的構建策略 

LTM 是對原始數據的有效組織和結構化,而不僅僅是表面上對原始數據進行分類和排序。相反,它是從記憶快速存儲和檢索以及信息高效利用的角度來設計和優化。通過建立相關信息之間的聯繫,有效處理數據並重新組織信息,智能體可以快速定位所需的記憶片段,從而提高響應速度和準確性。以下是幾種主要的操作方法:

  • 文本摘要

  • 數據結構化

  • 圖表徵

  • 矢量化

  • 模型參數化

如何利用 LTM 實現模型自我進化?

獲得高質量的 LTM 數據後,下一個挑戰是如何利用它來增強模型能力並實現模型的自我進化。在使用 LTM 數據以最大限度地提高其有效性和效率的過程中需要解決幾個關鍵挑戰,包括: 

適應持續更新的 LTM 數據。隨著用戶 LTM 數據的不斷積累,模型必須在學習新信息和保留先前獲取的知識之間取得平衡。傳統模型通常假設穩定的數據分佈,但在實際場景中,新的 LTM 數據可能與早期模式顯著背離,導致過擬合或災難性遺忘等風險。有效處理這些變化對於適應動態 LTM 數據至關重要。

實時學習和高效反饋集成。由於 LTM 數據是動態積累的,模型必須快速適應用戶行為的實時變化。新數據的快速集成對於智能助手等應用程序至關重要,其中無縫的用戶交互是關鍵。此外,在完善基礎模型時,應考慮隱式(例如點擊次數或花費的時間)和顯式的用戶反饋。實時結合這兩種類型的反饋使模型能夠不斷改進並滿足個人用戶的需求。

處理數據稀疏性和用戶多樣性。數據稀疏是持續更新的 LTM 系統中一個常見的問題,特別是對於交互歷史有限或零星活動的用戶來說,這使得訓練模型變得困難。此外,用戶多樣性也會進一步增加複雜性,要求模型適應個體模式,同時仍然有效地推廣到不同的用戶組。

以清華大學團隊的 Agent Hospital(智能體醫院)作為案例,該團隊展示了如何在這個模擬醫療場景中用 LTM 來提升模型的能力,其中包括醫療記錄積累、醫療經驗反思和基於 RAG 利用 LTM。詳見原論文。

基於 LTM 實現模型自我進化的實踐

獲取 LTM 數據

為了提升模型保留和訪問 LTM 數據的能力,該團隊全面研究了各種方法,其中包括:

  • 如何收集真實世界的 LTM 數據。

  • 如何獲取合成的 LTM 數據,其中包括用真實數據提升合成 LTM 數據的生成過程、使用思維鏈增強合成 LTM 數據的生成過程、生成訓練數據和評估數據等多個方面。

  • 如何使用 LTM 數據,該團隊介紹了通過 SFT 和 RAG 使用 LTM、將 LTM 用於醫療領域的智能體自我評估、通過記憶系統來使用 LTM、通過實時權重更新來使用 LTM。

這其中包含一些實驗評估和例證,詳見原論文。這裏我們來重點看看他們開發的基於 LTM 的多智能體框架。

基於 LTM 的多智能體框架

該團隊提出一個基於 LTM 的多智能體框架 Omne。

Omne 是基於 AutoGen MultiAgent Framework 深度定製的開發框架,專門用於解決 LTM 在 AI 系統中的實際應用難題。

它擴展了一系列與記憶相關的基礎設施,包括統一的記憶模型、多模態消息處理系統以及靈活的記憶存儲和操作機制。Omne 的核心模塊(Omne Core)如下圖所示:

Omne 的核心目標是提供一套全面的解決方案,使 LTM 能夠在實際工程項目中有效部署,從而增強 AI 系統的長期記憶能力和任務處理效率。

基於 Omne Core,該團隊還構建了一個 Omne Assistant。

Omne Assistant 的設計目標是幫助開發聊天場景中的 AI 助手,其提供了一個現成的應用層框架。它包括 AI 助手所需的基本功能,使開發人員無需從頭開始設計基礎組件,就能快速構建功能齊全的聊天機器人。

Omne Assistant 帶有一個 Simple Responder,這是一個通用的問答響應器,可以處理基本的用戶聊天交互以實現即時通信。此外,該框架還提供了一個 Reactive Responder,它具有高級任務分析和規劃功能,使其能夠管理需要多步驟推理和任務編排的更複雜的用戶請求。

借助這些內置組件,Omne Assistant 可讓開發人員專注於實現自己的功能,從而更快地開發和部署配備長期記憶功能的 AI 助手應用。

在 GAIA 基準(包含 400 多個問答任務的通用 AI 助手測試集)上,該團隊對 Omne 框架進行了評估。

為了探索 AI 的邊界,他們在 Omne 框架中使用了當今最強大的 GPT-4o 和 o1-preview 模型,同時配備了 4 個工具:網絡瀏覽、Bing 搜索引擎、基於 llamaparse 的文件讀取器,一個使用 o1-preview 構建的邏輯專家。

基於這 2 個基礎模型和 4 個工具,Omne 在測試集和驗證集上分別取得了第一名(40.53%)和第二名(46.06%)的成績。

值得注意的是,Omne 在最複雜、要求最高的 3 級問題上達到了 26.53% 的準確率。這證明了其通過利用強大的基礎模型(尤其是具有強大推理和邏輯能力的模型)解決現實問題的潛力。

未來計劃

該團隊並不打算止步於此,他們已經製定了未來研究的計劃,方向包括:

1. 如何更好地構建 LTM 數據?

2. 如何為 LTM 設計新的模型架構?

3. LTM 如何幫助用戶提出更好的問題?

4. 如何將 LTM 與推理時間搜索相結合?

5. 如何在複雜場景中使用 LTM 實現智能體自我進化?

6. 如何在多智能體場景中使用 LTM?

© THE END