LLM群體智能崛起,數學性能暴增11.6%!GoogleDeepMind四大機構聯手新作

新智元報導  

編輯:桃子

【新智元導讀】多個LLM聯合,可以邁向更強大系統!最新研究發現,GPT-4能夠提升同伴的性能,能夠讓數學能力暴漲11.6%。

AI如何成為「更強的AI」?

最關鍵還是,得學會「借力」。

來自蒙特利爾大學、劍橋、普林斯頓、GoogleDeepMind四大機構研究人員聯手,竟發現:

GPT-4能夠幫助其他LLM,在數學性能上暴增11.6%,而且是通過一種「元認知」的方式。

論文地址:https://arxiv.org/pdf/2405.12205

在這個過程中,GPT-4可以始終如一地,標記數學問題所需的解決技能。

當LLM獲得了由GPT-4生成的技能標籤時,它們在解決相應的數學問題時,就會得到相應地表現得更好。

有網民做了一個精闢的總結,這便是「群體智能」。

AI元認知,數學最考驗

元認知,原本是指,人類對自己思維、推理過程的直觀認識。

那麼,大模型也具備「元認知」的能力嗎?

研究人員對此,提出了一種假設,並設想是否可以通過知識引導,進一步提高LLM的能力。

其實,此前的研究已經表明,大模型表現出一些類人的特徵,比如通過CoT一步一步推理。

而且,也有一些研究稱,LLM具備了元認知能力。

比如,這篇來自Google、UCSD等機構2月論文提出了Ask-LLM,並稱想要破譯LLM元認知,最直接方法就是——問!

論文地址:https://arxiv.org/pdf/2402.09668

在最新研究中,作者將重點放在了AI元認知,在解決數學問題時,所應用的技能。

因為數學領域中,覆蓋了人類豐富的技能目錄,從簡單的(變量運算、求解方程、掌握函數的概念),到複雜的(定理和證明)。

自動化技能發現

如下圖所示,研究人員描述了,讓GPT-4根據數學問題,所需的特定技能對數學問題進行分類的自動化過程。

這裏一共劃分為兩個階段:

首先,創建技能示例倉庫。

功能強大的LLM A會用相應地技能,標記每個問題,如下圖2(左)中,提供的提示中詳細介紹的那樣。

接下來,LLM A要求將類似的細粒度技能,組合成廣泛的技能集群,代表著複雜的技能。

這大大減少了,第一階段的獨特技能數量,如圖2(中)描述的提示。

然後,大模型被要求,將訓練集中的所有示例,重新分類為一種後聚類技能。

第二階段,是推理。

在使用LLM B(其中B可能與A不同),對測試問題進行推理期間,要求LLM B使用技能示例倉庫中,一項技能來標記測試問題。

接下來,研究人員從倉庫中,獲取具有相同技能標籤的範例,並向LLM B提供主題上下文示例,以幫其解決測試問題。

舉個例子,對於MATH數據集,第一階段識別了約5000個技能,第二階段將其減少到117個粗粒度技能。

代表粗粒度技能的隨機子集例子被保留作為其技能示例。

針對不同數據集,所列出的技能表,這些技能名稱由GPT-4-0613提供。

下圖中,展現了一些在數學領域中的技能。

實驗結果

接下來,研究人員描述一種LLM在提取元認知知識的程序,這種只是以數學問題技能標註形式呈現。

結果表明,技能知識顯著改善了不同數據集上,基於文本和程序的提示性能。

此外,這些技能表現出強大的可遷移性,提升其他數學數據集和LLM的數學推理能力。

具體結果如下所示。

論文中,主要研究了兩種主要類型的上下文提示方法,以增強法學碩士的數學推理能力。

首先是,基於文本的提示,利用文本示例來演示解決問題的步驟,思想鏈(CoT)就是一個很好的例子。

其次是,程序輔助提示,使用程序來展示推理步驟,如程序輔助語言模 型 (PAL) 中所示。

表2展示了,MATH數據集上,基於文本的提示結果。

研究人員基於技能的方法採用CoT提示,在MATH數據集中的所有話題中,表現出優於所有其他方法的性能。

研究者利用技能示例庫,解決GSM8K數據集中的測試集問題。

結果如表3所示,基於技能的方法在GSM8K數據集上的表現,優於CoT和隨機基準方法,並強調了準確技能分配、相關上下文示例在有效問題解決中重要性。

此外,基於技能方法與自洽性,帶來了更好的性能。

對於SC實驗,研究人員從LLM中采樣5個推理鏈,並選擇最頻繁的答案。

為了進一步強調所提出方法的有效性,他們將其與Retrieval-RSD方法進行比較,後者也是一種用於少樣本提示的相關上下文示例選擇方法。

MATH數據集的結果,如表2所示。

對於此分析,研究人員提出的方法採用簡單的思想鏈 (CoT) 方法,其中上下文示例源自技能示例倉庫。

新方法在性能上取得了顯著的進步,超出了標準CoT 11.6%,令人印象深刻。

另外,新方法也要比複雜CoT好3.5%,比基於主題方法卡奧3.5%。

這些結果,凸顯了方法的有效性,特別是細粒度技能標籤。

技能示例,向其他模型的遷移結果如下所示。

所有實驗都使用MATH數據集在Mixtral 8 × 7B模型上進行,與標準思維鏈(CoT)、使用基於主題示例的CoT、使用基於技能示例的CoT、以及使用主題和技能示例的CoT加自洽性(maj@4)進行比較。

新技能的方法表現出的增強性能表明,技能可以有效地從GPT-4遷移到另一個模型。

表7說明了,基於技能的方法使LLM能夠有效應用相關技能的實例。

紅色加亮的文本,顯示了基於主題的基線在概念上的錯誤,而藍色加亮的文本,則展示了嫻熟而準確的技能應用。

表6呈現了,新論文所提出的方法,在4個案例中實現了最高準確率。

總之,作者提出一個LLM提取元認知知識框架,其形式是根據解決問題所需的概念,對數學數據集中的問題進行分類的技能。

目前,新框架依賴於GPT-4等高級模型的可用性。

然而,技能發現過程改進了GPT-4的情境學習,這表明使用技能來微調GPT-4可能會提高其能力。

參考資料:

https://x.com/emollick/status/1832583991498608918