首款人機交互端到端多模態AI大模型發佈，公司CEO：訓推同步是自主學習的最佳方式｜鈦媒體AGI

基於自研Yan系列模型的智能機器人（圖片來源：受訪者提供）

鈦媒體App 9月27日消息，岩芯數智RockAI日前在上海推出全新升級、採用非Transfomer架構的Yan 1.3大模型，可高效處理圖文及語音等多模態信息，用於無人機、機器人、PC、手機等各類終端設備場景。

RockAI CEO劉凡平表示，這是全球首個人機交互領域端到端的多模態大模型，同時也是全球首個跨越廣泛設備的多模態大模型，而且還是國內推出的自研群體智能單元大模型。目前，該模型已快速在英偉達、高通、聯發科、英特爾、瑞芯微等多元化硬件設備上實現適配，進一步加速商業落地，讓世界上每一台設備擁有自己的智能。

會後，劉凡平向鈦媒體App等表示，Yan1.3大模型將落地覆蓋從低端到高端更廣泛的群體。談到行業未來發展，劉凡平強調，「基於Transfomer架構的通用大模型，未來只有兩到三家可能是成立的。Transfomer這樣的‘造神式’大模型未來解決問題的場景依然有限，相比較而言，以群體智能為目標的群體智能單元大模型更有意義。」

「在AGI（通用人工智能）這個終極命題下，無論是雲端還是端側，都只是實現智能普惠及躍遷的一個載體。我們始終堅信，只有真正提升每一台設備的自我學習能力，才能激發更高級別智能形態即群體智能的湧現。」劉凡平表示。

RockAI CEO劉凡平

據悉，成立於2023年6月的RockAI，是A股上市公司岩山科技（002195.SZ）旗下AIGC新公司，專注於打造一站式AIGC數智化服務平台。而RockAI團隊則早在2022年就早已組建。

相比於其他大模型企業，RockAI主攻基於非Transformer自研架構的 AI 大模型研發。今年1月，RockAI首次發佈Yan1.0模型，並公佈基於AI 大模型的To B垂直領域行業和場景方案，釋出包括RockAI模型大腦、知識庫問答、業務助手、智能客服等產品。

此前，劉凡平對鈦媒體App表示，亟需創新型的 AI 算法，現有的很多算法不僅無法滿足客戶的實際應用需求，而對於大模型成本也造成一定承壓。他表示，目前算力在客戶交付成本中佔了近一半，而RockAI利用自研的非Transformer的記憶邏輯模型架構，將交付成本降低到30%-40%左右。

所謂非Transformer架構，其實是以底層神經網絡架構MCSD替代Transformer的Attention機制，因為Attention是Transformer架構的核心，其加權算法決定了計算量會隨著序列長度的增加而數倍增長，對計算的算力要求也會越來越高。而RockAI通過MCSD機制替換掉Attention，只把最有效的信息、特徵往後傳，以線性的方式降低計算的複雜度，提升訓練和推理效率。

如今，RockAI再次更新Yan1.3模型。

相較於1月份發佈的Yan1.0，Yan1.3具備了強大的多模態能力，可高效處理圖文及語音等多模態信息，並實現了模型在更廣泛設備端上的離線無損部署，普通電腦CPU上也能夠流暢運行。

「在技術的征途上，RockAI正在以創新者和突圍者的姿態書寫新的篇章，我們很自豪的向大家宣佈，在效果表現上，自研架構Yan 1.3已經超越了Llama3，成為了中國自主架構大模型的里程碑事件。如今，未經壓縮、裁剪的Yan1.3大模型在越來越多設備端展現出的絲滑適配和超強模力，正向行業證實RockAI技術路線的合理性，及其最終激發群體智能的充分可能。」劉凡平在演講中表示。

商業化層面，基於Yan1.3模型的「胖虎」智能機器人，能夠基於多模態處理能力，在離線狀態下識別複雜環境、準確理解用戶意圖，並據此控制其機械軀體高效完成各類複雜任務。

同時，Yan系列模型也已經在無人機、手機、PC等端側場景中落地，如基於Yan1.3的飛龍無人機，可全面感知複雜環境並在設備端實時處理，支持各類環境下的智能巡檢，不僅適配電力巡檢、安全監控、環境監測等城市治理及工業場景，而且可以面向個人用戶廣泛用於日常生活情景。

劉凡平表示，目前RockAI主要以「Yan inside」的模式賦能不同設備，也願意為終端銷量較大的公司賦能，但同時針對量小的終端廠商也不會忽視，例如部署在小眾卻有潛在發展前景的具身智能當中，以及在關注玩具或陪伴機器人，從而加速大模型的廣泛落地應用。

「Yan1.3已經可以在廣泛的設備上部署和應用了，開啟了多元化硬件生態，所以我們認為它在第二階段，第三階段是自主學習。」劉凡平認為，RockAI的群體智能實現包括四個階段：創新型基礎架構、多元化硬件生態、自適應智能進化、協同化群體智能，而目前公司仍在第二階段當中進行實施。

此外，RockAI還在會上發佈「訓推同步」技術，劉凡平稱這是群體智能單元大模型自主學習實現的最佳方式。會後他向鈦媒體App進一步解釋稱，「訓推同步」是更偏算法層面，目標是不僅能在端側上運行，同時能夠做訓練，這將是一個很大的進步。

談到未來發展，劉凡平強調，Transfomer是一條通往AGI（通用人工智能）中的可能路徑，但實踐過程無法論證它是最優的路徑。我們應該讓大模型模擬人腦的方式來工作，而不應該是Transfomer架構大模型中那樣無時間差別的輸出。「作為非常早期的Transformer研究者之一，我們從理解Transfomer、深入Transfomer到放棄Transfomer是一個無奈但迫使我們創新的過程，這個過程非常漫長。」

「在當前充滿競爭的時代，現在國內大模型研發似乎進入一種‘模式化’的困境，創新的思路已經開始稀缺，大家都在追隨國外的步伐，彷彿像一場沒有終點的技術接力賽。春節時期OpenAI發佈影片模型Sora，國內都去follow它。所以Yan架構就像一股清流，它以非Transformer架構的身份證明了中國智慧的無限可能。試想一下，其實中國的大模型又有多少是真正自己研發的？我們沒法‘造殼’，因為我們底層架構全是自己的，沒法用別人的東西，我們就只能從零開始走向超越Llama 3，甚至很多企業在用Transformer架構都還沒有超越Llama 3，這種方式就決定了我們創新之路，不斷證明它是一個越來越正確的事情。不同於其他的廠商，我們選擇更艱難的道路，直面挑戰，因為我們知道，RockAI作為真正的創新者，是無法靠‘套殼’去安身立命的。我們未來一定會比現在更好。」劉凡平在演講中表示。

以下是RockAI CEO劉凡平與鈦媒體App等進行部分對話交流整理：

問：Yan大模型的訓推同步，與OpenAI o1推出的強化學習有什麼不同？

劉凡平：嚴格來說OpenAI O1是一個強化學習過程，但Yan1.3的訓推同步並不是這個路線，或者說強化學習並不是主要的。強化學習要通過大量數據去調整，意味著它應用成本很高。這也是O1在真正實際運用時會有限制的原因。

訓推同步的目標是能在端側上運行並做訓練，這將是一個很大的進步。我們希望更廉價的訓練，而不是更昂貴的。訓推同步可理解為模型的訓練與推理同步進行，正如人一樣，在聊天的時候可以通過語音輸出推理，但同時也可以通過耳朵的聽覺、眼睛的視覺作為輸入進行實時學習。

問：訓推同步在本地設備上是怎麼進行訓練的？

劉凡平：我們剛才提到了類腦激活機制，其實我們人在處理事件時，並不是大腦的所有神經元都會參與。我們在端側也是以選擇部分神經元參與的方式，比如說100億參數，並不是所有參數都會參與這個過程，而是很小部分，這樣它的算力需求就會很低，訓推就可以完全同步的進行，而且在輸出時也能調整參數。

問：您覺得大模型可能在未來哪個領域里出現大的爆發？

劉凡平：我覺得在一些消費終端設備上可能會有一些爆發，目前手機和PC本身就有很大的一個存量，但我覺得更多消費終端應該很快也能打開這個局面。現在的很多終端設備智能還是固定化程序運轉，接下來應該很快就能通過AI的方式產生變化，包括交互體驗上也能產生變化的。就比如搭載了Yan1.3的無人機，是可以人機對話的，我們可以讓無人機拍攝不同角度的照片，比如拍下我身後的風景，並將我放在畫面正中的位置。

問：大家認為大模型是一種信息的壓縮，在這個層面一般都會是生成內容，但我們強調的是學會，這個是什麼原因？

劉凡平：學會的方式則不再是next token的預測了。例如之前廠商都在做的文生影片，其實有個很大的痛點，就是生成後很難再編輯它，得重新改提示詞。而我們是想教會大模型如何去做影片的技能，它學會技能後再去生產影片。所以我們更希望模型是面向過程的學習，而非面向結果的學習，同時面向過程的學習會使得模型具備更強的可解釋性。