大模型的半場戰事:CoE or MoE ?

作者 | Ray編輯 | 鄭玄 

頭圖來源:360 

殘暴的歡愉,終將以殘暴結束。

當盛宴開啟之時,沒人想到,大模型的淘汰賽,會來的如此之快。

火藥味首先表現在創投市場。PitchBook 最新報告披露,相比2023年一季度,全球2024年一季度大模型融資額,從216.9億美元增長到了258.7億美元,但涉及的交易數量,卻從 1909 筆下滑至1545筆——產業格局正迅速向強者收攏。 

大廠的價格戰,則徹底關上了後來者進入的大門。5月6日,幻方量化率先打響降價「大戰」第一槍,隨後將字節、百度、阿里、京東、騰訊、智譜,全部拖下水,輕量級模型每千tokens,價格內卷「從分到厘」。不到一個月時間里,後來者的感慨就從跟不上,變成了跟不起。 

秋風掃落葉式的前後夾擊,使得短短兩年不到,技術尚未走到盡頭,產業側就完成了從萌芽到江山初定的格局演練。

然而,勝利者同時也被拖入了另一場更漫長的消耗戰中。三朵陰雲始終判斷在大模型行業的頭頂揮之不去:

以目前的技術迭代速度,GPU還夠嗎?究竟是模型參數的膨脹速度更快,還是賬上現金的消耗更快?十項全能、沒有幻覺的通用大模型,真的存在嗎? 

當問題變得無解,過度的追求模型的技術領先,也就成為了一種詛咒。

當淘汰賽暫時畫上休止符,行業開始決定換一種活法。

01

一當暴力不再有奇蹟,

大模型正陷入技術的詛咒

絕對的大參數,或許並不是大模型落地的唯一解法。這句話,正逐漸成為大模型產業的共識。·

其中,參數做大路上的第一個隘口,正是這場盛宴中最大的獲勝者——英偉達。

最近,一份出自Meta 研究報告顯示:其最新的 Llama 3 405B 參數模型在 16384 個 Nvidia H100 GPU 組成的集群上訓練時,54 天內經歷了 419 次意外,訓練期間平均每三個小時就發生一次故障。與此同時,每次的單個 GPU 故障,都會中斷整個訓練過程,導致訓練重新啟動。 

簡單翻譯來說,當前的大模型參數量,已經接近硬件所能支撐的極限。即便有無窮無盡的GPU,也不再能解決大模型訓練中的算力模型。如果朝著擴大參數的路上繼續狂奔,那麼訓練的過程,將變成西西弗斯推石頭式的無限重來。 

硬件增大了大模型擴張的難度,細分場景中,智能程度不再與參數量成正比,則從實用角度為這場暴力的歡愉畫上了一個大大的問號。

大模型的場景正不斷變得複雜化和專業化、碎片化,想要一個模型既能回答通識問題,又能解決專業領域問題,幾乎異想天開。 

一個國內大模型廠商最愛使用的技術比較維度是:與GPT4比詩詞賞析和弱智吧段子,幾乎無一例外,無論模型大小,開源模型套殼與否,國產大模型全數吊打「世界第一」。甚至,在最基礎的魯迅與周樹人的關係這樣的文學常識題上,最優秀的大模型,也比不過一個最傳統的搜索引擎。 

回歸到實際應用中,商業化的不可能三角,徹底為參數信徒們兜頭澆來一盆涼水。

在實際應用中,除了模型的智能程度,產品經理們還需考慮速度與成本兩大因素。通常 來說,在問答中1秒內的響應速度,99%的準確率,以及能打和成本的商業模式,會是一個大模型生存的必要條件。 

但使用大參數路線推高智能,往往也就意味著智能程度越高,產品的應答速度越慢,成本越高,反之亦然。 

如果一味由著參數無限制擴張,AI也將無可避免的變成一場資本的戰爭,但擴張的代價,卻遠遠超過歷史上的任何一場同等階段的商業比拚……對已經踩下油門的玩家來說,只有把籌碼加到對手跟不起的水平,才能讓自己輸得不會太慘。 

於是,面對隱約可及的天花板,行業的課題開始轉向:如果萬能模型不存在,暴力無奇蹟,行業要去往哪裡?

02

大模型的T型車時刻:

CoE or MoE?

當一個大模型同時完成通用+專業的可行性被堵死,多模型聯合分工成為了行業第二階段的主旋律。

1913年,福特公司創造性的將屠宰線思路引入汽車產業,開發出了世界上第一條流水線。汽車生產,自此從老師傅手工組裝,邁入工業化進程,一輛汽車的生產時間壓縮近60倍,售價降低也足足一倍有餘。汽車製造,自此邁入一個新的時代。 

同樣的T型車時刻,也發生在大模型產業。

以最典型的場景翻譯來說,一個好的翻譯,應達到信達雅三層境界。但在大模型的世界里,傳統翻譯大模型只能做到信,達與雅,則依靠寫作大模型才能完成。 

但關於何如進行多模型分工,行業則分成了旗幟鮮明的合縱派與連橫派。

合縱派的技術思路是 MoE。

所謂MoE(Mixture-of-Experts),翻譯成中文就是混合專家模型,將多個細分領域的專家模型組合成一個超級模型。早在2022年,Google 就提出了MoE大模型Switch Transformer,使得其憑藉1571B的參數量,也能 在預訓練任務上顯示出比 T5-XXL(11B) 模型更高的樣本效率(更準確,且計算成本沒有顯著提升)。 

不僅如此,美國知名駭客George Hotz與PyTorch的創建者Soumith Chintala也先後表示,GPT4也是由8個220B參數量的MoE模型組成的 1760B參數大模型,算不嚴格意義的「一個」萬億模型。 

然而,這種8合一的思路,也導致了MoE的設計與每次升級迭代都需要花費巨大的資源。類似日常爬山,爬一座8848m高的珠穆朗瑪峰的難度,遠不是爬8次海拔1108米的雁蕩山耗費體力的加和。因此,有能力參與的,往往都是8項全能其具備絕對領先優勢的AI技術龍頭。 

於是,隨著MoE逐漸成為寡頭的遊戲,一種新的技術思路走上台前——連橫派的CoE。

CoE(Collaboration-of-Experts),即專家協同模型。通俗來說,一個入口同時接入多家模型,而入口會在模型分析之前,增加一個意圖識別環節,然後才進行任務派解,決定任務是由哪款模型起作用,或者哪幾款模型打配合。相對於MoE,CoE最大的優勢是,各個專家模型之間可以彼此協同工作,但不存在綁定關係。 

相比MoE,CoE的每個專家模型之間有更多的協同,更精準的分工,並且更靈活、更專業細分。這一思路,相比MoE,具有更高的效率,和更低的API接口和Token使用成本。

那麼,MoE與CoE哪種路線會更佔上風? 

03

另一種解題思路:

什麼決定了用戶的智能體驗?

當週鴻禕一襲紅衣轉型AI教父時,360內部,關於如何CoE與MoE路線的論證,也在最近一年多時間里反復上演。 

如果走MoE,360多年技術的積累,足以支撐打完這場仗。 

而走CoE,就意味著與更多的大模型廠家同分一杯羹。 

「三個臭皮匠,頂一個諸葛亮」給了360集團副總裁梁誌輝啟發,要將寶壓在CoE上: 

一家企業,哪怕做到Open AI式「8項全能」,依然不免存在短板。但如果將最優秀的大模型企業能力,通過CoE能力,則意味著優勢互補與真正十八項全能的實現。 

測評結果顯示,基於360 CoE AI能力的AI助手Beta版,在引入360智腦在內的16家國內最強大模型集各家所長後,已在11個單項能力測試指標上超越GPT-4o。 

與此同時,即使將底層大模型能力「外包」,360依然能在 CoE 的浪潮中,找到自己的獨家定位。

從產品層面看, 360 CoE 產品AI助手可以被分成兩個部分:其中,語料積累與算法技術,主要依靠的是360智腦在內的16家國產大模型的接入,類似分工不同的特種兵;而360則充當指揮官的角色,通過意圖識別模型,來實現對於用戶意圖更加精準的理解;通過任務分解和調度模型,實現了對於眾多專家模型網絡(100+LLM)、千億規模知識中樞和200+第三方工具的智能調度,進而實現比MoE更高的靈活性和效率。 

其背後的邏輯在於,當下階段,決定用戶側所能感知到的模型智能程度的幾大要素排序中,需求理解>語料積累>算法技術。 

其中,語料大於算法的邏輯,主要體現在細分場景。一個不太恰當的比喻是,一個初高中搜題軟件在解決數學和物理問題上,都能秒殺GPT-4o。 

關於如何理解需求理解的重要性,梁誌輝用360最新發佈的CoE AI工具AI助手舉了個例子,比如,關於「比如起床笫一件事是做什麼」的問題,大部分用戶期待的或許是一個養生型的答案,而一個熱愛弱智吧問答的用戶,期待的答案卻是睜眼。 

在這種實際場景下,不同於客觀的評分與打榜,用戶對模型智能程度的感知,是主觀的。

而做好用戶的主觀意圖判斷,則需要對用戶歷史行為的積累。如果玩家是像360這樣有搜索引擎、瀏覽器數據積累的玩家,則意味著對用戶問題的拆解可以做到更加精準,更進一步,通過歷史數據,就能判定用戶的檢索意圖,一步給出最合適的答案。 

確認了CoE與360的定位後,一個新的問題又隨即出現在眼前,基於以上功能設計,360基於CoE架構的AI助手,究竟是作為自家瀏覽器、搜索引擎、辦公產品中的附加功能,還是作為一個獨立應用存在。

最終路線定在兩相結合,前者提供更多場景,後者創造更多可能。 

8月1日,ISC.AI2024第十二屆互聯網安全大會·人工智能峰會開幕上,360創始人周鴻禕正式發佈「AI助手」。在保留獨立的網址入口基礎上,AI助手也將其全面內置到360國民級入口產品,用戶不需要安裝插件,即可獲取AI體驗,與此同時,用戶使用AI助手功能時,還可以對模型一鍵切換,16家國內主流大模型,「哪家最強用哪家」。 

AI助手的使用示範 

選擇將AI助手內置到成熟應用的最直接原因是用戶體驗。

基礎的技術突破,是掄起錘子對一個釘子猛敲;而落地與商業,則是無數個名叫用戶體驗、場景連續、技術領先、產品生態的齒輪相嵌合,組成的龐大系統性工程。AI的使用需求,往往伴隨場景產生,比如網頁的翻譯,文章的擴寫。如果將這些功能放在不同頁面、插件甚至APP之間來回跳轉,則意味著使用流程的斷點與門檻。 

發佈會上,周鴻禕對此做出了進一步解釋: 

「大模型不是產品,而是能力,能力固然很重要,但能力一定要跟場景相結合,才能真正的產生價值。」「大模型像今天電器時代的電動機,這東西可大可小、可強可弱、可快可慢,就看怎麼用。比如把電動機拿到工廠傳送帶,就變成流水線,如果加上四個輪子、底盤、外殼,就能得到一輛汽車。發動機在過程中發揮著重要的作用,但是用戶並不需要直接發動機,用戶需要發動機提供的能力和很多部件相結合。」 

用戶體驗之外,AI助手綁定瀏覽器的另一個優勢則在於成本。

用戶側成本而言,傳統的模式中,用戶獲得更精準的回答,往往只能選擇使用更大參數也更貴的大模型這一條路。而通過AI助手,基於CoE架構的意圖識別、任務路由模型,問題可以被精準分發匹配到最合適的模型回答,成本也隨之降低。 

而在產業生態角度,AI助手被集成到安全衛士、瀏覽器中,則意味著對大模型幾乎零成本的流量導入。一般來說,大模型的成本,主要由訓練時的研發與硬件採購支出,以及推理時的網絡、算力消耗決定,與傳統的互聯網模式類似,前期的研發成本,會隨著後期用戶規模的擴大,而在單用戶訪問成本上被攤得越薄。 

360旗下產品獲得了更多AI能力的加持,用戶獲得了更精準更順滑的使用體驗,大模型廠商獲得了免費的流量與繼續坐在牌桌上的資格。AI助手從頁面交互上看,或許只是一個新增功能的改變,但於大模型而言,卻是一場一魚三吃,產品、技術、用戶三贏的新商業模式的開端。 

這也解釋了,為何不久前以阿里釘釘的號召力,爭取到的是「七個葫蘆娃」的入駐;而這次360發佈「AI助手」,卻正選就是16家,幾乎是把國內主流大模型廠商「一網打盡」。或許只有一家一家寫下來,才能感受到這個陣營以及這種號召力的強大: 

大廠:百度、字節跳動、騰訊、阿里巴巴、華為; 

五小虎:智譜AI、月之暗面、MiniMax、百川智能、零一萬物; 

垂類頭部:商湯科技、科大訊飛、好未來、幻方量化、面壁智能。 

04

尾聲

從大模型改變世界,到原子彈變茶葉蛋;從模型為王到合縱連橫,從MoE到CoE……短短兩年時間,大模型就走完了從初代產品一鳴驚人,到產業淘汰賽,再到商業化的三步走。 

而大模型產業的進化速度,也正如其漫無邊際膨脹的參數,快速將對手挑落馬下,同時快速將自己送到了每一個新興賽道的終極之問面前:

要生存,還是要偉大。

歷史已經替參賽者做出回答——如果生存不能保證,偉大隻會成為對手成功路上的墊腳石。

本文來自微信公眾號「極客公園」(ID:geekpark),作者:Ray,36氪經授權發佈。