告別AI「蹺蹺板」,商湯「換道超車」
作者|週一笑郵箱|zhouyixiao@pingwest.com
你是否遇到過這樣的場景:面對一份包含大量圖表、文字信息的會議紀要,你希望AI能幫助你快速提煉。然而,手中的AI工具卻只抓取了文字部分,對關鍵的圖表視而不見,你不得不再次手動梳理,效率還不如自己從頭來做。
好的用戶體驗應該是這樣的:
這就是最新的商湯「日日新」融合大模型展現出來的能力。它能像我們人類一樣,眼觀六路、耳聽八方,將現實世界中的文字、圖像、聲音等多種信息融合起來思考,在融會貫通後,形成對世界的認知與理解,高效解決實際問題。
根據權威評測,商湯「日日新」融合大模型在AI在理解和處理複雜信息上,已經實現了行業的跨越式突破。在OpenCompass多模態評測中,「日日新」超過了GPT-4o、Claude 3.5 Sonnet等獲得第一。
在另一個權威大模型測評機構 SuperCLUE 最新發佈的《中文大模型基準測評2024年度報告》,商湯「日日新」融合大模型也以總分 68.3 的優異成績,與DeepSeek V3並列國內榜首。
同一個模型、同時拿下了多模態測評和通用能力測評的雙料冠軍,這就比較厲害了。也就是說「日日新」融合大模型,實現了單一模型,同時在圖文場景、純語言、推理等場景能達到業內最優秀的水平。
這也意味著它解決了多模態AI領域長期存在的一個「老大難」問題——蹺蹺板效應。什麼意思呢?以前的多模態模型,受限於技術局限,往往只能在一個方向維度上保持高水平,熊掌和魚翅,很難兼得。
因此目前,國內其他的語言模型和多模態模型仍然是相互獨立的,難以真正實現不同模態之間的無縫融合。此次,商湯在原生融合模態訓練方面取得的實質性突破,對於引領和推動國內大模型,從語言和多模態分立走向一統,將起到關鍵作用。
根據商湯科技聯合創始人、人工智能基礎設施及大模型首席科學家林達華介紹,為解決這一問題,商湯攻克了兩項阻礙多模態模型研究的關鍵技術點:融合模態數據合成,和融合任務增強訓練。通過高質量、多樣化的數據積累,並創新性地進行數據再生產和合成,以及通過構建大量的跨模態橋樑等方法,從根本上解決了數據和融合等問題。
這也正是包括OpenAI、Google在內的全球頂尖研究機構都在努力攻克的方向。例如,OpenAI推出的GPT-4o,以及Google的Gemini系列,都在朝著單一模型體系融合多種模態處理能力的方向發展,力求打破AI的「感知盲區」。
實測案例,解鎖更多應用場景
「日日新」融合大模型目前已經可以通過「商量」網頁版進行體驗,矽星人也在得知消息的第一時間對它進行了一番考驗。
向下滑動查看完整圖片 識別並解答手寫數學題
在教育場景中,學生常常通過手寫方式記錄和解答數學題。對於潦草的手寫體,傳統的AI模型可能難以準確識別。「日日新」融合大模型借助多模態理解能力,不但能夠準確識別,還能給出詳盡的解題推導過程及正確答案。
看懂「抽像」玩偶
AI能懂年青人鍾愛的抽像文化嗎?它不僅能認出這是個玩偶,還能分析出它的顏色、材質,甚至連設計背後的 「小心思」 和文化內涵都能 get 到位。
能看懂宏觀經濟圖表,還能進行推理分析
在真實場景中,我們常常需要解讀複雜圖表。「日日新」不僅能看懂這些複雜的圖表,還會通過邏輯推理,將圖表和內容之間的關係梳理清楚,從而提供具有實際參考價值的分析支持,無論是商業決策還是個人規劃都更加從容。
多模融合,換道超車
隨著融合模態有效提升AI大模型性能,商湯「日日新」融合大模態模型將廣泛應用於諸多場景,包括智能硬件、在線教育、具身智能機器人等,實現跨模態交互,提升交互體驗。
除此之外,採用原生融合方法訓練的多模態模型,未來還有更多的潛力等待挖掘。比如落地在許多垂直行業和企業級場景,幫助企業實現「降本增效」,為社會帶來效能。
想像一下,在一個智能化的產業園區里,攝像頭捕捉到工人在違規操作,如果僅僅依靠傳統的圖像識別技術,可能只能發出一個冰冷的警報。但有了融合大模型,它可以結合現場的影片畫面、操作手冊的文字說明、以及歷史違規記錄等多模態信息,判斷工人是否真的存在安全風險,並給出更精準的指導和建議,甚至可以主動聯繫安全負責人。
再比如,在電商平台的客服場景中,用戶發來一張商品破損的照片,並用文字描述了問題。傳統的客服系統可能需要人工介入才能判斷責任歸屬和處理方案。但融合大模型可以同時理解圖片和文字信息,快速判斷破損程度和原因,並自動生成退換貨申請,大大提升了客戶服務的效率和用戶體驗。
再比如,在醫療領域,醫生可以通過上傳病人的影像資料和病曆報告,綜合分析,輔助診斷,提供更精準的治療方案。在金融領域,分析師可以快速解讀包含圖表和文字的財務報告,更高效地進行投資決策。甚至在工業生產中,工程師可以通過上傳設備的照片和維修記錄,診斷故障原因,提供維修建議。
「日日新」融合大模型的問世,是商湯邁出的關鍵一步,不僅讓AI大模型擺脫了「盲人摸象」的局限,成為能夠理解世界、服務生活的有力助手,更將為企業級應用帶來更多變革。憑藉在大模型和多模態領域的技術積累,以及工程化優勢,商湯找到了適合自身發展的關鍵路徑,還將引領中國AI行業邁上原生融合發展新台階,最終實現「換道超車」。
結語
所有這些指向一個共同的趨勢:AI需要變得越來越「全能」。把不同模態的能力整合起來,AI才能解鎖更多的想像空間。
話說回來,現在多模態融合發展到這個程度,其實意味著人工智能正在悄悄地改變方向。它不僅僅是讓 AI 變得更厲害,更重要的是,這意味著 AI 正朝著不再只是擅長「做題」、 「刷榜」 這些事情了。融合了多模態能力之後,AI 才能真的開始有能力去解決現實世界里那些複雜的問題了。這才能真正讓 AI 產生價值,而不是停留在概念上。你可以把它理解為,AI 正在努力構建一個更強大的大腦,去理解和模擬我們真實的世界。這樣一來,人工智能才能迎來一次真正意義上的大變革,沿著 LLM->多模態->融合模態->世界模型的道路走下去。