騰訊最新萬億參數異構MoE上線，技術細節首次曝光！權威評測國內第一，直逼GPT-4o

09月12日 14:15 新浪網 news-china-auto-hilite

新智元報導

編輯：桃子好睏

【新智元導讀】鵝廠新一代旗艦大模型混元Turbo技術報告首次曝光。模型採用全新分層異構的MoE架構，總參數達萬億級別，性能僅次於GPT-4o，位列國內第一梯隊。

近期，騰訊混元推出新一代旗艦大模型——混元Turbo。

作為國內率先採用MoE結構大模型的公司，騰訊繼續在這一技術路線上進行技術創新。

相較上一代混元Pro的同構MoE大模型結構，混元Turbo採用了全新的分層異構MoE結構，在參數總規模上依然保持萬億級。

公開信息顯示，當前混元Turbo模型在業界公認的benchmark指標上處於國內行業領先地位，與國外頭部模型如GPT-4o等相比也處於第一梯隊。

另外，在剛剛發佈的國內第三方權威評測機構評測中，混元Turbo模型位列國內第一。

混元Turbo是如何做到如此快速的進步？

背後技術細節首公開

我們拿到了混元Turbo的技術解讀，從Pretrain、Postrain和專項能力突破幾個角度，深入展示了模型升級的秘密。

首先，業界目前普遍公認，大模型Pretrain成功的關鍵秘訣之一是Scaling Law。

可以簡單理解為，訓練數據量越大，模型效果越好；參數量越大，模型效果越好。

其中後者意味著，如果想要模型具備更高的效果天花板，就需要設計較高參數量的大模型，但大參數量設計也意味著較高的部署成本和較低的訓練推理性能。

為此，混元Turbo採用了全新的異構MoE結構。

通過較多的專家數和較小激活量設計，在模型整體參數量依然保持萬億級規模前提下，通過整體算法升級和訓練推理框架加速的端對端優化，模型效果相比上代混元Pro有較大提升。

與此同時，模型訓練推理效率也有超1倍的提升，並最終帶來了50%的推理部署成本下降，以及20%推理時延降低。

其次，在Postrain階段，騰訊混元Turbo自研了混元CriticModel和RewardModel，用於構建自提升pipeline，並在RLHF階段全面採用了離線數據和在線采樣結合的強化學習策略。

相對傳統PPO及DPO，其整體可控性更好，效果上限更高。

除了在通用能力方面持續優化外，針對當前業界大模型普遍存在的文科能力「重而不強」，理科能力普遍偏弱的現狀，本次混元Turbo大模型也專項強化了高質量文本創作、數學、邏輯推理等典型大模型文理科能力。

文本創作、數學、邏輯推理能力全面提升

1. 專項能力-高質量文本創作

當前大模型普遍存在的一般文本創作尚可，但專業化寫作機器味濃、不夠信雅達，字數控制等指令跟隨能力不足等問題。

騰訊混元Turbo模型做了大量高質量文本創作專項優化。

以中、高考中文寫作為例，騰訊混元團隊引入專家標註團隊，構建高質量寫作評估模型，同時，構建創作指令約束體系，提升複雜指令跟隨能力。

通過以上優化，高考作文寫作這一項能力上，混元Turbo在專家標註團隊中自評達一類卷水平，在剛剛過去的24年高考中，混元Turbo獲得第三方大模型高考作文寫作評測第一名。

2. 專項能力-數學

如何大幅提升模型的數學能力是一項非常有挑戰性的任務。騰訊混元採用了以下幾種技術方案來提升模型效果。

提升數據量：針對已有題庫模擬大量數學題用於模型的增訓。對於一些比較難的題目，也會採用MCTS等技術來提高模型的做題能力。
強化學習：為了進一步提升模型能力，採用了強化學習技術，包括DPO/PPO等技術。訓練了一個基於過程的reward模型對結果進行打分。

最終，混元Turbo在數學推理能力上有了較大提升，在內外部多種評測集上達到了業界先進水平。

3. 專項能力-邏輯推理

推理的第一大難點在於推理問題的多樣性，往往用戶的問題千奇百怪，要在PostTrain階段比較好的解決這個難點，必須要提升SFT數據中推理問題的廣度和質量。

預訓練中的推理問題非常豐富，但是結構化不足，往往一個比較好的問題隱藏在某一個文檔的最後。

為瞭解決這個問題，騰訊基於騰訊混元訓練了一個問題抽取模型（Problem Extraction Model），抽取出千萬級量級的推理類指令。

另外，通過公開渠道獲取全網偏推理的問題，大幅補充了SFT數據中推理問題的多樣性。

推理能力的第二個難點是，複雜問題的答案如何構建。

對此，騰訊訓練一個critique模型對推理類訓練數據進行打分，然後迭代更新答案，直到構建推理過程和結論完全正確的訓練。

最終，推理數據質量得分提升10%。

經過上述優化，混元Turbo較以往的版本在內部推理評測中總體提升9%，在一些較為難的子類上例如因果、符號推理等上都取得了明顯進步。

4. 聯網插件-AI搜索

作為騰訊混元新一代旗艦大模型，混元Turbo除支持各類大模型能力外，也支持AI搜索聯網插件。

通過整合騰訊優質的內容生態（如微信公眾號、影片號等）和全網搜索能力，同時基於Planner+Action Agent架構，混元Turbo AI搜索基於混元通用大模型底座，使用豐富的搜索數據進行多任務精調，得到更懂搜索、具備精準閱讀理解能力的SearchGPT，用於AI深度問答。

目前通過AI搜索的強大加持，混元Pro具備強大的時新、深度內容獲取和AI問答能力。

自研工程平台的牢固支撐

驚豔的模型效果，離不開底層算法和平台的支持。

騰訊混元大模型全面建立在騰訊全面自研的Angel機器學習平台和強大的算力基礎設施之上。

面對萬億級MoE模型參數大顯存需求高，All2all通信效率低，訓練性能低等挑戰，騰訊混元訓練框架AngelPTM通過引入大BatchSize訓練、FP8低精度訓練、梯度通信/MoE通信計算、MOE算子融合等優化策略，使得訓練性能提升108%，成本下降70%。

針對大模型大窗口能力已成行業必備趨勢，AngelPTM採用精度無損的attention均衡通信加速算法，實現了高達10M長窗口的訓練能力。

對於混元Turbo這樣的萬億級超大MoE大模型，推理成本和速度是很大的挑戰。

為此，混元推理加速框架AngelHCF支持FP8量化壓縮，定製了一系列算子加速FNN模塊的推理性能，使得推理性能整體提升1倍，成本下降50%；

另外，在強化學習階段，通過在AngelPTM中集成AngelHCF的方式加速sampling采樣性能，整體吞吐提升40%以上。

此前，中國電子學會2023科學技術獎評選，騰訊《面向大規模數據的Angel機器學習平台關鍵技術及應用》獲科技進步一等獎。

元寶APP，可以上手了

目前，騰訊混元Turbo模型除已經作為新一代旗艦大模型，在騰訊雲官網API正式上架。

基於混元Turbo模型強大的通用內容理解和推理能力，以及與騰訊生態體系、如微信搜一搜、搜狗搜索、微信公眾號、影片號、騰訊新聞和騰訊金融等內容平台全面連接，為用戶提供豐富、權威的生態優質內容及全網信息。