騰訊最新萬億參數異構MoE上線,技術細節首次曝光!權威評測國內第一,直逼GPT-4o

新智元報導  

編輯:桃子 好睏

【新智元導讀】鵝廠新一代旗艦大模型混元Turbo技術報告首次曝光。模型採用全新分層異構的MoE架構,總參數達萬億級別,性能僅次於GPT-4o,位列國內第一梯隊。

近期,騰訊混元推出新一代旗艦大模型——混元Turbo。

作為國內率先採用MoE結構大模型的公司,騰訊繼續在這一技術路線上進行技術創新。

相較上一代混元Pro的同構MoE大模型結構,混元Turbo採用了全新的分層異構MoE結構,在參數總規模上依然保持萬億級。

公開信息顯示,當前混元Turbo模型在業界公認的benchmark指標上處於國內行業領先地位,與國外頭部模型如GPT-4o等相比也處於第一梯隊。

另外,在剛剛發佈的國內第三方權威評測機構評測中,混元Turbo模型位列國內第一。

混元Turbo是如何做到如此快速的進步?

背後技術細節首公開

我們拿到了混元Turbo的技術解讀,從Pretrain、Postrain和專項能力突破幾個角度,深入展示了模型升級的秘密。

首先,業界目前普遍公認,大模型Pretrain成功的關鍵秘訣之一是Scaling Law。

可以簡單理解為,訓練數據量越大,模型效果越好;參數量越大,模型效果越好。

其中後者意味著,如果想要模型具備更高的效果天花板,就需要設計較高參數量的大模型,但大參數量設計也意味著較高的部署成本和較低的訓練推理性能。

為此,混元Turbo採用了全新的異構MoE結構。

通過較多的專家數和較小激活量設計,在模型整體參數量依然保持萬億級規模前提下,通過整體算法升級和訓練推理框架加速的端對端優化,模型效果相比上代混元Pro有較大提升。

與此同時,模型訓練推理效率也有超1倍的提升,並最終帶來了50%的推理部署成本下降,以及20%推理時延降低。

其次,在Postrain階段,騰訊混元Turbo自研了混元CriticModel和RewardModel,用於構建自提升pipeline,並在RLHF階段全面採用了離線數據和在線采樣結合的強化學習策略。

相對傳統PPO及DPO,其整體可控性更好,效果上限更高。

除了在通用能力方面持續優化外,針對當前業界大模型普遍存在的文科能力「重而不強」,理科能力普遍偏弱的現狀,本次混元Turbo大模型也專項強化了高質量文本創作、數學、邏輯推理等典型大模型文理科能力。

文本創作、數學、邏輯推理能力全面提升

1. 專項能力-高質量文本創作

當前大模型普遍存在的一般文本創作尚可,但專業化寫作機器味濃、不夠信雅達,字數控制等指令跟隨能力不足等問題。

騰訊混元Turbo模型做了大量高質量文本創作專項優化。

以中、高考中文寫作為例,騰訊混元團隊引入專家標註團隊,構建高質量寫作評估模型,同時,構建創作指令約束體系,提升複雜指令跟隨能力。

通過以上優化,高考作文寫作這一項能力上,混元Turbo在專家標註團隊中自評達一類卷水平,在剛剛過去的24年高考中,混元Turbo獲得第三方大模型高考作文寫作評測第一名。

2. 專項能力-數學

如何大幅提升模型的數學能力是一項非常有挑戰性的任務。騰訊混元採用了以下幾種技術方案來提升模型效果。

  • 提升數據量:針對已有題庫模擬大量數學題用於模型的增訓。對於一些比較難的題目,也會採用MCTS等技術來提高模型的做題能力。

  • 強化學習:為了進一步提升模型能力,採用了強化學習技術,包括DPO/PPO等技術。訓練了一個基於過程的reward模型對結果進行打分。

最終,混元Turbo在數學推理能力上有了較大提升,在內外部多種評測集上達到了業界先進水平。

3. 專項能力-邏輯推理

推理的第一大難點在於推理問題的多樣性,往往用戶的問題千奇百怪,要在PostTrain階段比較好的解決這個難點,必須要提升SFT數據中推理問題的廣度和質量。

預訓練中的推理問題非常豐富,但是結構化不足,往往一個比較好的問題隱藏在某一個文檔的最後。

為瞭解決這個問題,騰訊基於騰訊混元訓練了一個問題抽取模型(Problem Extraction Model),抽取出千萬級量級的推理類指令。

另外,通過公開渠道獲取全網偏推理的問題,大幅補充了SFT數據中推理問題的多樣性。

推理能力的第二個難點是,複雜問題的答案如何構建。

對此,騰訊訓練一個critique模型對推理類訓練數據進行打分,然後迭代更新答案,直到構建推理過程和結論完全正確的訓練。

最終,推理數據質量得分提升10%。

經過上述優化,混元Turbo較以往的版本在內部推理評測中總體提升9%,在一些較為難的子類上例如因果、符號推理等上都取得了明顯進步。

4. 聯網插件-AI搜索

作為騰訊混元新一代旗艦大模型,混元Turbo除支持各類大模型能力外,也支持AI搜索聯網插件。

通過整合騰訊優質的內容生態(如微信公眾號、影片號等)和全網搜索能力,同時基於Planner+Action Agent架構,混元Turbo AI搜索基於混元通用大模型底座,使用豐富的搜索數據進行多任務精調,得到更懂搜索、具備精準閱讀理解能力的SearchGPT,用於AI深度問答。

目前通過AI搜索的強大加持,混元Pro具備強大的時新、深度內容獲取和AI問答能力。

自研工程平台的牢固支撐

驚豔的模型效果,離不開底層算法和平台的支持。

騰訊混元大模型全面建立在騰訊全面自研的Angel機器學習平台和強大的算力基礎設施之上。

面對萬億級MoE模型參數大顯存需求高,All2all通信效率低,訓練性能低等挑戰,騰訊混元訓練框架AngelPTM通過引入大BatchSize訓練、FP8低精度訓練、梯度通信/MoE通信計算、MOE算子融合等優化策略,使得訓練性能提升108%,成本下降70%。

針對大模型大窗口能力已成行業必備趨勢,AngelPTM採用精度無損的attention均衡通信加速算法,實現了高達10M長窗口的訓練能力。

對於混元Turbo這樣的萬億級超大MoE大模型,推理成本和速度是很大的挑戰。

為此,混元推理加速框架AngelHCF支持FP8量化壓縮,定製了一系列算子加速FNN模塊的推理性能,使得推理性能整體提升1倍,成本下降50%;

另外,在強化學習階段,通過在AngelPTM中集成AngelHCF的方式加速sampling采樣性能,整體吞吐提升40%以上。

此前,中國電子學會2023科學技術獎評選,騰訊《面向大規模數據的Angel機器學習平台關鍵技術及應用》獲科技進步一等獎。

元寶APP,可以上手了

目前,騰訊混元Turbo模型除已經作為新一代旗艦大模型,在騰訊雲官網API正式上架。

基於混元Turbo模型強大的通用內容理解和推理能力,以及與騰訊生態體系、如微信搜一搜、搜狗搜索、微信公眾號、影片號、騰訊新聞和騰訊金融等內容平台全面連接,為用戶提供豐富、權威的生態優質內容及全網信息。