首款人機交互端到端多模態AI大模型發佈,公司CEO:訓推同步是自主學習的最佳方式|鈦媒體AGI

基於自研Yan系列模型的智能機器人(圖片來源:受訪者提供)基於自研Yan系列模型的智能機器人(圖片來源:受訪者提供)

鈦媒體App 9月27日消息,岩芯數智RockAI日前在上海推出全新升級、採用非Transfomer架構的Yan 1.3大模型,可高效處理圖文及語音等多模態信息,用於無人機、機器人、PC、手機等各類終端設備場景。

RockAI CEO劉凡平表示,這是全球首個人機交互領域端到端的多模態大模型,同時也是全球首個跨越廣泛設備的多模態大模型,而且還是國內推出的自研群體智能單元大模型。目前,該模型已快速在英偉達高通、聯發科、英特爾瑞芯微等多元化硬件設備上實現適配,進一步加速商業落地,讓世界上每一台設備擁有自己的智能。

會後,劉凡平向鈦媒體App等表示,Yan1.3大模型將落地覆蓋從低端到高端更廣泛的群體。談到行業未來發展,劉凡平強調,「基於Transfomer架構的通用大模型,未來只有兩到三家可能是成立的。Transfomer這樣的‘造神式’大模型未來解決問題的場景依然有限,相比較而言,以群體智能為目標的群體智能單元大模型更有意義。」

「在AGI(通用人工智能)這個終極命題下,無論是雲端還是端側,都只是實現智能普惠及躍遷的一個載體。我們始終堅信,只有真正提升每一台設備的自我學習能力,才能激發更高級別智能形態即群體智能的湧現。」劉凡平表示。

RockAI CEO劉凡平RockAI CEO劉凡平

據悉,成立於2023年6月的RockAI,是A股上市公司岩山科技(002195.SZ)旗下AIGC新公司,專注於打造一站式AIGC數智化服務平台。而RockAI團隊則早在2022年就早已組建。

相比於其他大模型企業,RockAI主攻基於非Transformer自研架構的 AI 大模型研發。今年1月,RockAI首次發佈Yan1.0模型,並公佈基於AI 大模型的To B垂直領域行業和場景方案,釋出包括RockAI模型大腦、知識庫問答、業務助手、智能客服等產品。

此前,劉凡平對鈦媒體App表示,亟需創新型的 AI 算法,現有的很多算法不僅無法滿足客戶的實際應用需求,而對於大模型成本也造成一定承壓。他表示,目前算力在客戶交付成本中佔了近一半,而RockAI利用自研的非Transformer的記憶邏輯模型架構,將交付成本降低到30%-40%左右。

所謂非Transformer架構,其實是以底層神經網絡架構MCSD替代Transformer的Attention機制,因為Attention是Transformer架構的核心,其加權算法決定了計算量會隨著序列長度的增加而數倍增長,對計算的算力要求也會越來越高。而RockAI通過MCSD機制替換掉Attention,只把最有效的信息、特徵往後傳,以線性的方式降低計算的複雜度,提升訓練和推理效率。

如今,RockAI再次更新Yan1.3模型。

相較於1月份發佈的Yan1.0,Yan1.3具備了強大的多模態能力,可高效處理圖文及語音等多模態信息,並實現了模型在更廣泛設備端上的離線無損部署,普通電腦CPU上也能夠流暢運行。

「在技術的征途上,RockAI正在以創新者和突圍者的姿態書寫新的篇章,我們很自豪的向大家宣佈,在效果表現上,自研架構Yan 1.3已經超越了Llama3,成為了中國自主架構大模型的里程碑事件。如今,未經壓縮、裁剪的Yan1.3大模型在越來越多設備端展現出的絲滑適配和超強模力,正向行業證實RockAI技術路線的合理性,及其最終激發群體智能的充分可能。」劉凡平在演講中表示。

商業化層面,基於Yan1.3模型的「胖虎」智能機器人,能夠基於多模態處理能力,在離線狀態下識別複雜環境、準確理解用戶意圖,並據此控制其機械軀體高效完成各類複雜任務。

同時,Yan系列模型也已經在無人機、手機、PC等端側場景中落地,如基於Yan1.3的飛龍無人機,可全面感知複雜環境並在設備端實時處理,支持各類環境下的智能巡檢,不僅適配電力巡檢、安全監控、環境監測等城市治理及工業場景,而且可以面向個人用戶廣泛用於日常生活情景。

劉凡平表示,目前RockAI主要以「Yan inside」的模式賦能不同設備,也願意為終端銷量較大的公司賦能,但同時針對量小的終端廠商也不會忽視,例如部署在小眾卻有潛在發展前景的具身智能當中,以及在關注玩具或陪伴機器人,從而加速大模型的廣泛落地應用。

「Yan1.3已經可以在廣泛的設備上部署和應用了,開啟了多元化硬件生態,所以我們認為它在第二階段,第三階段是自主學習。」劉凡平認為,RockAI的群體智能實現包括四個階段:創新型基礎架構、多元化硬件生態、自適應智能進化、協同化群體智能,而目前公司仍在第二階段當中進行實施。

此外,RockAI還在會上發佈「訓推同步」技術,劉凡平稱這是群體智能單元大模型自主學習實現的最佳方式。會後他向鈦媒體App進一步解釋稱,「訓推同步」是更偏算法層面,目標是不僅能在端側上運行,同時能夠做訓練,這將是一個很大的進步。

談到未來發展,劉凡平強調,Transfomer是一條通往AGI(通用人工智能)中的可能路徑,但實踐過程無法論證它是最優的路徑。我們應該讓大模型模擬人腦的方式來工作,而不應該是Transfomer架構大模型中那樣無時間差別的輸出。「作為非常早期的Transformer研究者之一,我們從理解Transfomer、深入Transfomer到放棄Transfomer是一個無奈但迫使我們創新的過程,這個過程非常漫長。」

「在當前充滿競爭的時代,現在國內大模型研發似乎進入一種‘模式化’的困境,創新的思路已經開始稀缺,大家都在追隨國外的步伐,彷彿像一場沒有終點的技術接力賽。春節時期OpenAI發佈影片模型Sora,國內都去follow它。所以Yan架構就像一股清流,它以非Transformer架構的身份證明了中國智慧的無限可能。試想一下,其實中國的大模型又有多少是真正自己研發的?我們沒法‘造殼’,因為我們底層架構全是自己的,沒法用別人的東西,我們就只能從零開始走向超越Llama 3,甚至很多企業在用Transformer架構都還沒有超越Llama 3,這種方式就決定了我們創新之路,不斷證明它是一個越來越正確的事情。不同於其他的廠商,我們選擇更艱難的道路,直面挑戰,因為我們知道,RockAI作為真正的創新者,是無法靠‘套殼’去安身立命的。我們未來一定會比現在更好。」劉凡平在演講中表示。

以下是RockAI CEO劉凡平與鈦媒體App等進行部分對話交流整理:

問:Yan大模型的訓推同步,與OpenAI o1推出的強化學習有什麼不同?

劉凡平:嚴格來說OpenAI O1是一個強化學習過程,但Yan1.3的訓推同步並不是這個路線,或者說強化學習並不是主要的。強化學習要通過大量數據去調整,意味著它應用成本很高。這也是O1在真正實際運用時會有限制的原因。

訓推同步的目標是能在端側上運行並做訓練,這將是一個很大的進步。我們希望更廉價的訓練,而不是更昂貴的。訓推同步可理解為模型的訓練與推理同步進行,正如人一樣,在聊天的時候可以通過語音輸出推理,但同時也可以通過耳朵的聽覺、眼睛的視覺作為輸入進行實時學習。

問:訓推同步在本地設備上是怎麼進行訓練的?

劉凡平:我們剛才提到了類腦激活機制,其實我們人在處理事件時,並不是大腦的所有神經元都會參與。我們在端側也是以選擇部分神經元參與的方式,比如說100億參數,並不是所有參數都會參與這個過程,而是很小部分,這樣它的算力需求就會很低,訓推就可以完全同步的進行,而且在輸出時也能調整參數。

問:您覺得大模型可能在未來哪個領域里出現大的爆發?

劉凡平:我覺得在一些消費終端設備上可能會有一些爆發,目前手機和PC本身就有很大的一個存量,但我覺得更多消費終端應該很快也能打開這個局面。現在的很多終端設備智能還是固定化程序運轉,接下來應該很快就能通過AI的方式產生變化,包括交互體驗上也能產生變化的。就比如搭載了Yan1.3的無人機,是可以人機對話的,我們可以讓無人機拍攝不同角度的照片,比如拍下我身後的風景,並將我放在畫面正中的位置。

問:大家認為大模型是一種信息的壓縮,在這個層面一般都會是生成內容,但我們強調的是學會,這個是什麼原因?

劉凡平:學會的方式則不再是next token的預測了。例如之前廠商都在做的文生影片,其實有個很大的痛點,就是生成後很難再編輯它,得重新改提示詞。而我們是想教會大模型如何去做影片的技能,它學會技能後再去生產影片。所以我們更希望模型是面向過程的學習,而非面向結果的學習,同時面向過程的學習會使得模型具備更強的可解釋性。

問:有一種論調就是現在的通用大模型太多了,未來是不是就可能只剩兩三家,您怎麼看這個問題?

劉凡平:基於Transfomer架構的通用大模型,未來只有兩到三家可能是成立的。但Transfomer這樣的「造神式」大模型未來解決問題的場景依然有限,相比較而言,以群體智能為目標的群體智能單元大模型更有意義。

(本文正選於鈦媒體App,作者|林誌佳,編輯|胡潤峰)