商湯破解世界模型秘訣,「日日新」實現AI大一統!原生融合模型破紀錄雙冠王

編輯:編輯部 HYZ
【新智元導讀】大模型下一個突破口在哪?商湯「日日新」原生融合大模型一舉拿下雙料冠軍,給出了最好的答案。一個模型精通「看」與「想」,原生多模態融合讓AI邁入「大一統」新紀元。
大模型發展到今天,下一步該走向何方?
就在剛剛,商湯給出了答案——原生融合模態!
最近的CES大會上,英偉達提出能理解世界的「世界模型」Cosmos,能夠將文本、圖像、影片作為輸入。

英雄所見略同,憑藉著十年的深耕和AI賦能場景的經驗,商湯也認為,原生融合是世界模型的必經之路。
或者說,多模態模型,是AI 2.0進行場景落地的必由之路。
就在最近,商湯「日日新」融合大模型上線了!
一個模型,就實現了多模態的融合。這是商湯率先在原生融合模態上取得了實質性突破,成為業界在這一領域的領跑者。
這一突破標誌著,大語言模型和多模態模型普遍分立的現狀,從此刻邁向真正意義上的「大一統」時代!
跨模態交互融合,通往世界模型的必經之路
一般來說,LLM的工作原理,是根據提示一次生成一個token產生輸出。如果上下文變成了現實周圍環境,大模型就需要從生成「內容token」轉變為生成「動作token」。
隨著AI落地到各種場景,它需要對多維度、多模態的信息有感知、理解、分析、判斷,如果模型不能有效綜合處理這些模態,模型的智能水平就會很容易達到天花板。
原生模態融合之所以如此意義重大,就是因為實現之後,模型就不止能達到「看」和「想」的水平,而是可以幫助人類解決更多複雜問題。
看不清的字體,數據圖表裡的信息,文學創作與撰寫,舉棋不定的遊戲……現在,這些任務全部可以實現了。
實測:模型會看,還會想
接下來,不如看看「日日新」融合大模型在實際任務中的表現。
無論是非常難認的英文手寫詩,還是俄文手寫詩,它都能認出來。
上傳一張幾乎難以辨認的英文手寫體詩歌,日日新竟毫不費力地讀出了每一行詩。最關鍵的是,它還完整複刻原文的書寫格式。

再比如這張俄語詩歌,對於非母語的人來說,大腦只剩一片空白。
對於日日新來說,簡直小菜一碟,不僅準確寫出了原文詩句,還順便把它翻譯成了比較有意境的中文版。

有了日日新,對於拍題寫作業的學生們來說,簡直就是絕絕子。
以往,你可能需要將題目打成文字,發給AI去解,而現在拍題、解答能夠一併交給AI。
將附有自己解答的一道題圖片上傳,AI一眼就辨認出錯誤點。而且,它還能做到舉一反三,完全就是學習神器。

還有一些讓人笑出鵝叫的小學生錯題,日日新能完美解讀答案好笑在哪裡。

爆笑小學生作文的幽默之處,它都能get。

同樣的,日日新非常精準指出了這幅畫作的特點——捕捉到了狗的神態和動作。
對於如何提升畫技,它又給出了行之有效的方式。

再上傳一張雕像的圖片,它能識別出圖中歷史人物,並分析出對應的歷史典故。

通過以上要點,它推斷得出可以該電腦可跑大模型。

上傳一張圖,日日新就能分析出代碼實現了什麼。

一張國外網民製作的表情包,日日新也能夠準確領會圖中的要點。
它認為,人類正在AGI的爬坡上,若要實現真正的AGI,還需要更多研發和工作。對於另一個問題,也看懂了Sam Altman本人正逐步逼近ASI。

再比如,這張大模型智商大比拚圖中,數字雜多,我們想要瞭解o3和o1的智商如何,直接扔給日日新就可以了。
對於AI來說,一眼就看出了圖中o3 IQ為157,o1 IQ為135。它還給出了這個評測的標準,以及Codeforces背景信息介紹。
當被問到更為發散的問題——o3與愛恩斯坦誰更聰明時,日日新非常客觀地看待這個問題。
若要從最直接的IQ結果來看,愛恩斯坦比o3聰明些,但AI還綜合考慮了智力評測的多個維度進行分析。

而世界模型的到來,或許還意味著能對地球和人類更好的理解,找到和宇宙對話的方法。

文科超越o1全球第一,理科國內金牌
同樣,多方的評測結果也證明,商湯果然摸到了一條正確的路。
完成訓練後的商湯「日日新」融合大模型,首次出戰即拿下語言和多模態兩個榜單的雙料冠軍。

近日,SuperCLUE 2024年度榜單中,「日日新」融合大模型以68.3高分,與DeepSeek V3並列國內榜首,成為年度第一

具體來看,SuperCLUE覆蓋了29個國內模型,聚焦大模型的通用能力測評,由理科、文科和Hard三大維度構成。
而此次獲得68.3高分的商湯「日日新」融合大模型,直接超越了Claude 3.5 Sonnet和Gemini-2.0-Flash-Exp。
令人印象深刻的是,「日日新」在各項能力上表現均衡,在三大維度上均處領先。
在文科任務上,它以81.8分位列全球第一,超越OpenAI的o1和GPT-4o-latest。

而在理科任務上,它直接奪得了金牌,其中計算維度以78.2分位列國內第一併超過GPT-4o-latest。

如此驚豔的表現,是否需要很高的成本呢?
好消息是,融合模態模型訓練的成本也並不高。相比同樣量級的LLM,訓練成本也就是增加20%左右。
原因在於,這實際上是一個多階段的訓練,語言模式和多模態模式的訓練合在了一起,因而只用了1.2倍左右的成本。
技術路線:原生融合多模態
深挖背後,離不開商湯在「原生融合多模態」——一條獨特且富有賽前分析性的技術發展路徑上,取得的創新突破。
在大模型百舸爭流的當下,各家都在積極佈局多模態,但技術路徑的選擇卻大不相同。
通常來講,業內普遍採用了分離式架構,多模態和語言模型分步訓練,然後再通過中間層實現功能整合。
從實際應用角度來考慮,語言只是信息的一部分,世界中很多信息可能是以圖像、影片等形態存在的。
如果不能有效綜合處理這些信息的話,那麼這個模型的能力很快就會觸及到天花板。
商湯認為,融合多模態是未來的一條必由之路,其技術最顯著的特點是「單一模型,多模態融合」。
直白講,單一模型同時訓練和處理多模態,成為一個原生的多模態模型。
這也就意味著,在一個統一的模型框架內,同時具備了處理文本、圖像、影片、音頻多種模態信息的能力。
值得注意的是,商湯選擇的這條技術路線,與OpenAI、Anthropic、Google同頻共振。比如,GPT-4o、Claude 3.5、Gemini 2.0都採用了類似的單一模型融合多模態的技術路徑。

正如商湯聯合創始人、人工智能基礎設施及大模型首席科學家林達華所言,這種策略的選擇,帶來了顯著的優勢——
首先,在訓練成本方面,相較於分別訓練兩個模型的方案,融合多模態方案僅增加20%的訓練成本,就能獲得等效的能力。
其次,這種一體化設計在處理多模態任務時,更為高效和自然。
那麼,既然這條原生融合技術路線是必由之路,我們又該如何去實踐它,至今沒有具體方法論,也無人能效仿。
實際上,從去年年底開始,原生多模態大模型就逐漸成為業內探討的重要方向。
然而由於數據和訓練方法的局限,業內很多機構的嘗試並不成功——多模態訓練過程往往會導致純語言任務,尤其是指令跟隨和推理任務的性能嚴重下降。
在這個充滿挑戰的賽道上,商湯憑藉其在CV領域十年深厚積累,給出了獨一份解決之道。
他們獨創性提出了兩項關鍵技術——融合模態數據合成與融合任務增強訓練。
融合模態數據合成
NeurIPS演講上,Ilya曾當眾宣佈當前AI行業已達到「數據峰值」。無獨有偶,馬斯克最近直播中也稱,「我們基本上已經把AI訓練中能利用的人類知識都挖空了」。
互聯網數據幾近枯竭,早已成為屢見不鮮的話題。

業界一致將希望寄託於「合成數據」身上,就比如,OpenAI曾被曝出用合成數據,來輔助訓練下一代模型Orion;Anthropic利用Claude 3.5 Opus生成合成數據提升模型性能。
不僅如此,還可以從微軟Phi系列模型中,可以看到合成數據的巨大潛力。

可以證明,合成數據是能夠緩解數據不夠的一種方法。
商湯在融合多模態技術路線最大的創新之一,便是「融合模態數據合成」。那麼,他們是具體如何做到的呢?
在研究過程中,團隊發現,當更多的數據和模態用一種有效和有機的方式融合在一起進行訓練時,模型在不同環節和方向上都表現出更優的性能。
跟AI 1.0時代相比,這是很不一樣的。當時,一個模型的能力非常有限,如果同時訓練它做兩件事情,可能兩件事都做不好。
然而在大模型時代,在不同的場景都可以觀察到——
相比單一模態(如單純的語言或圖文模式),多模態有機融合的模型在智能水平上有顯著提升。
在越來越多的工作中,都可以觀察到這種現象:隨著更多的模態進行有機的融合,模型會湧現出更強的智能水平。
這種多模態技術在實踐中的巨大潛力,已經在商湯絕影自動駕駛核心模型中得到了應用。
而在預訓練階段,商湯不僅採用了天然存在的海量圖文交錯數據,還通過逆渲染、基於混合語義的圖像生成等方法合成了大量融合模態數據。
由此,團隊就成功在圖文模態之間建立起大量交互橋樑,使得模型基座對於模態之間的豐富關係掌握得更紮實,因而能更好地完成跨模態任務,提升了整體性能。
融合任務增強訓練
在完成預訓練之後,模型還要針對多項任務進行增強訓練。
不難理解,只有融合模型對實際應用場景有了深刻洞察,在場景驅動下,才能實現落地開花。
就好比一個大學生,學了很多知識,在進入社會之前,需要一些實操磨練,才能真正走進崗位。
融合多模態模型也是如此,為此,商湯基於多年來對廣泛業務場景的認知,構建了一系列跨模態任務。
具體涵蓋了交互、多模態文檔分析、城市場景理解、車載場景理解等等。
通過把這些任務融入到增強訓練的過程,模型不僅被激發出強大的對多模態信息進行整合理解分析的能力,而且還形成了對業務場景有效的響應能力。
在這個過程中,模型就走通了應用落地反哺基礎模型迭代的閉環。
只有真正做到多模態的交互與深度融合,才能讓模型走向統一,也是通向世界模型的必經之路。
目前,基於「日日新」融合大模型,商湯已經在多個實際場景中取得了突破的成果。
擴展應用新維度
在很多B端應用、商業競爭上,商湯已經具備了較大優勢。
在辦公、金融領域,經常會用到很多複雜的多模態文檔,比如表格、文本、圖片、影片等,以及以上形式的融合。
那麼,面對如此豐富複雜的信息,融合大模型就有了非常大的優勢。
基於「日日新」打造的「辦公小浣熊」,便能夠高效處理多種格式的辦公文檔,智能分析複雜業務數據,還能提精準的信息提取服務。


甚至許多已經在媒體上發佈的圖文並茂的文章,都會得到多模態的綜合解讀。
在前文已經提到的自動駕駛領域,原生融合模態模型就大有可為。
未來,乘客或司機可以靠語音去和車載智能體對話。智能體既能看到車里、車外的狀態,感知各種信號,還能和人做文字模態的語音交互。
還有一個場景,就是影片交互。
商湯已發佈的日日新5o,就是基於影片實時交互的應用。人可以在一個影片的場景下,去跟機器交流,無論的語言還是畫面,AI都需要結合在一起去理解。
協助城市治理、園區管理的場景中,原生融合模態模型也將提供極大的助力,為客戶提供文字、圖像、影片材料結合的回答。
去年10月,商湯CEO徐立公開了商湯接下來10年「大模型、大裝置和應用」三位一體的整體戰略。
現在,多模態融合的大模型已經成為商湯AI 2.0的基座,承載了交互變革、提升生產力助手兩個應用方向。
隨著商湯把融合模態的技術路徑整體走通,一個全新的想像空間已經打開。
未來,整個空間結構將會如何輸入?跟LLM和推理能力將怎樣結合?
走通了通道和方法論的商湯,必將探索的觸角伸向更多範疇。
參考資料:
https://chat.sensetime.com/