GAITC智能傳媒活動|徐棟:模型的訓練已轉變為以agent為中心的訓練範式
6月8日,由中國人工智能學會主辦的2025全球人工智能技術大會智能傳媒專題活動」在杭州舉行。阿里巴巴通義大模型業務總經理徐棟受邀出席併發表名為《大模型的技術趨勢和實踐落地》的主題演講。

徐棟指出阿里雲及通義實驗室目前有三個重要的品牌,其中通義千問是語言模型,專注於語言理解和生成;通義萬相負責視覺生成任務,支持多模態創作需求;阿里雲百煉作為企業級大模型生產與管理平台,提供從數據處理、模型訓練到應用部署的一站式服務。同時大模型工程框架也開始出現新的變化,後續預訓練Post-Training都是以Agent為中心,而不是以單一模型訓練為中心了。
徐棟認為大模型未來有三個比較重要的發展趨勢,把它平鋪到X、Y、Z軸來看:
首先是X軸代表模型在持續預訓練的過程中會壓縮更多的知識,同時效率得到較大提升。整個預訓練數據量達到36Ttoken且數據質量越來越高;同時會採取MOE/MLA混合精度方式提高推理效率,可以做到多快好省;最後通過蒸餾的方式讓小型化模型具備更強的能力。
其次Y軸代表思考與探索。模型會越來越聰明,同時通過慢思考執行負責任務抑制幻覺。除慢思考之外還需要泛化調用三方工具,基於這些工具得到的結果,反思工具用對還是用錯。目前全球最頂尖的大模型公司都會類似讓模型進行思考來判斷結果的實驗,通過不斷用第三方的工具,通過他們得到結果,再去思考,不斷調整。
最後Z軸代表耳聰目明,能說會道。人的大腦有多個局域組成,思考是個大腦,看東西是個大腦,聽東西是個大腦,我們希望未來一個大腦解決所有多模態任務,同時保持較好的延時性和擬真性。
今天我們提出的模型的三個發展方向是階段性總結,從長期來說,可能收斂為一個模型,但會有大杯、中杯、小杯尺寸之分。人類的智慧中軸是語言,把不同的模態跟語言對齊,是一個方法或者技術趨勢。
當下模型在具體業務實踐中也有一些很有意思的能力方向,比如:
第一個讓語言模型可以執行複雜的端到端任務,在海外coding是一個非常火的方向,不僅是寫個網站,也可以做簡單的程序,比如做一個小紅書,也可以實現。這一代模型跟上一代模型最大的區別,離在線業務越來越近,因為大模型的指令遵循的能力越來越強了。
第二個是視覺理解模型的Grounding能力。過去做質檢或者道路上的行人的規範識別可能單獨要兩萬多張圖片訓一個模型,今天大模型配合提示詞就可以實現。舉一個大模型從看見到看懂的一個比較經典的評測任務「請模型幫框出勇敢的人這個需求」,用傳統的模型就很難做到,但是大語言模型就可以實現,它跟語言做過對齊,它知道什麼叫勇敢,它認為圖片中阻擋拿刀的人這是一個勇敢的行為,它就會識別出來。
另外視覺理解模型,可以做影片的理解,比如今天給模型一個小時的NBA的籃球比賽,它可以通過模型去抽取灌籃的動作。同時,我們看到很多數字營銷企業在用影片理解模型,去識別爆款影片的運鏡角度,理解人物講話的風格,最後按照這樣一個標籤生成影片。
第三,Omni全模態模型,目前支持三進兩出,文本、視覺、聲音進,文本、聲音出。前段時間跟教育硬件公司聊,這個模型特別適合小朋友陪伴,伴隨模型能力提升,小朋友可以做到實時交流和指導的精準教育,教育行業一定是會被大模型深刻改變。
最後,是萬相的影片生成能力,我們當前增加了噴灑類和大幅運動的模型,通過數據裡面總結物理規律,數據集持續也增加提升當前的效果。影片能力只是單一生成還不夠,為了商業化一定要給影片增加控制力,我們在模型基礎上羅列了六種Post-Training,跟GPT-4.0一樣,只要通過語言指令,想它怎麼變就怎麼變。未來生成類模型可以通過自然語言控制裡面所有的內容的進一步修改。
最後簡單跟大家聊下AI技術發展的趨勢,首先是選擇合適的模型的標準,最重要的是每家企業基於任務跟測試集不同判斷選擇什麼模型嵌入到自己的業務流程里。百煉平台或開源工具平台這樣的中間工具鏈層是承載兩個職責,一個是解決推理的速度問題,還有一個是把知識做封裝,做插件。隨著模型能力越來越提升,中間這一層可能會受到模型的挑戰,今天模型推理能力會用工具了,很多流程節點的用法變了,在模型訓練的過程中,把上面的流程節點進行編排已經成為模型公司各自的發展方向。
另外模型的訓練一定是以Agent為中心的,而不是以單一模型為中心的。這是跟過去很大的變化,也就意味著模型從學會人的語言,到學會用工具,跟環境互動了,這個就是一個質的變化。
最後模型會有兩種不同的用法,一種是大模型加到產品,可以對產品力做提升。另一種是大模型加企業,更多的是流程上效率的提升,今天每個企業就很多跟生產力有關的環節,可以通過大模型做流程的優化。
我們相信未來模型還在快速發展,期待新技術帶來商業新變化,也歡迎大家給通義多提建議。謝謝大家的時間,謝謝!