大模型的半場戰事：CoE or MoE ？

作者 | Ray編輯 | 鄭玄

頭圖來源：360

殘暴的歡愉，終將以殘暴結束。

當盛宴開啟之時，沒人想到，大模型的淘汰賽，會來的如此之快。

火藥味首先表現在創投市場。PitchBook 最新報告披露，相比2023年一季度，全球2024年一季度大模型融資額，從216.9億美元增長到了258.7億美元，但涉及的交易數量，卻從 1909 筆下滑至1545筆——產業格局正迅速向強者收攏。

大廠的價格戰，則徹底關上了後來者進入的大門。5月6日，幻方量化率先打響降價「大戰」第一槍，隨後將字節、百度、阿里、京東、騰訊、智譜，全部拖下水，輕量級模型每千tokens，價格內卷「從分到厘」。不到一個月時間里，後來者的感慨就從跟不上，變成了跟不起。

秋風掃落葉式的前後夾擊，使得短短兩年不到，技術尚未走到盡頭，產業側就完成了從萌芽到江山初定的格局演練。

然而，勝利者同時也被拖入了另一場更漫長的消耗戰中。三朵陰雲始終判斷在大模型行業的頭頂揮之不去：

以目前的技術迭代速度，GPU還夠嗎？究竟是模型參數的膨脹速度更快，還是賬上現金的消耗更快？十項全能、沒有幻覺的通用大模型，真的存在嗎？

當問題變得無解，過度的追求模型的技術領先，也就成為了一種詛咒。

當淘汰賽暫時畫上休止符，行業開始決定換一種活法。

一當暴力不再有奇蹟，

大模型正陷入技術的詛咒

絕對的大參數，或許並不是大模型落地的唯一解法。這句話，正逐漸成為大模型產業的共識。·

其中，參數做大路上的第一個隘口，正是這場盛宴中最大的獲勝者——英偉達。

最近，一份出自Meta 研究報告顯示：其最新的 Llama 3 405B 參數模型在 16384 個 Nvidia H100 GPU 組成的集群上訓練時，54 天內經歷了 419 次意外，訓練期間平均每三個小時就發生一次故障。與此同時，每次的單個 GPU 故障，都會中斷整個訓練過程，導致訓練重新啟動。

簡單翻譯來說，當前的大模型參數量，已經接近硬件所能支撐的極限。即便有無窮無盡的GPU，也不再能解決大模型訓練中的算力模型。如果朝著擴大參數的路上繼續狂奔，那麼訓練的過程，將變成西西弗斯推石頭式的無限重來。

硬件增大了大模型擴張的難度，細分場景中，智能程度不再與參數量成正比，則從實用角度為這場暴力的歡愉畫上了一個大大的問號。

大模型的場景正不斷變得複雜化和專業化、碎片化，想要一個模型既能回答通識問題，又能解決專業領域問題，幾乎異想天開。

一個國內大模型廠商最愛使用的技術比較維度是：與GPT4比詩詞賞析和弱智吧段子，幾乎無一例外，無論模型大小，開源模型套殼與否，國產大模型全數吊打「世界第一」。甚至，在最基礎的魯迅與周樹人的關係這樣的文學常識題上，最優秀的大模型，也比不過一個最傳統的搜索引擎。

回歸到實際應用中，商業化的不可能三角，徹底為參數信徒們兜頭澆來一盆涼水。

在實際應用中，除了模型的智能程度，產品經理們還需考慮速度與成本兩大因素。通常來說，在問答中1秒內的響應速度，99%的準確率，以及能打和成本的商業模式，會是一個大模型生存的必要條件。

但使用大參數路線推高智能，往往也就意味著智能程度越高，產品的應答速度越慢，成本越高，反之亦然。

如果一味由著參數無限制擴張，AI也將無可避免的變成一場資本的戰爭，但擴張的代價，卻遠遠超過歷史上的任何一場同等階段的商業比拚……對已經踩下油門的玩家來說，只有把籌碼加到對手跟不起的水平，才能讓自己輸得不會太慘。

於是，面對隱約可及的天花板，行業的課題開始轉向：如果萬能模型不存在，暴力無奇蹟，行業要去往哪裡？

大模型的T型車時刻：

CoE or MoE？

當一個大模型同時完成通用+專業的可行性被堵死，多模型聯合分工成為了行業第二階段的主旋律。

1913年,福特公司創造性的將屠宰線思路引入汽車產業，開發出了世界上第一條流水線。汽車生產，自此從老師傅手工組裝，邁入工業化進程，一輛汽車的生產時間壓縮近60倍，售價降低也足足一倍有餘。汽車製造，自此邁入一個新的時代。

同樣的T型車時刻，也發生在大模型產業。

以最典型的場景翻譯來說，一個好的翻譯，應達到信達雅三層境界。但在大模型的世界里，傳統翻譯大模型只能做到信，達與雅，則依靠寫作大模型才能完成。

但關於何如進行多模型分工，行業則分成了旗幟鮮明的合縱派與連橫派。

合縱派的技術思路是 MoE。

所謂MoE（Mixture-of-Experts），翻譯成中文就是混合專家模型，將多個細分領域的專家模型組合成一個超級模型。早在2022年，Google 就提出了MoE大模型Switch Transformer，使得其憑藉1571B的參數量，也能在預訓練任務上顯示出比 T5-XXL（11B）模型更高的樣本效率（更準確，且計算成本沒有顯著提升）。

不僅如此，美國知名駭客George Hotz與PyTorch的創建者Soumith Chintala也先後表示，GPT4也是由8個220B參數量的MoE模型組成的 1760B參數大模型，算不嚴格意義的「一個」萬億模型。

然而，這種8合一的思路，也導致了MoE的設計與每次升級迭代都需要花費巨大的資源。類似日常爬山，爬一座8848m高的珠穆朗瑪峰的難度，遠不是爬8次海拔1108米的雁蕩山耗費體力的加和。因此，有能力參與的，往往都是8項全能其具備絕對領先優勢的AI技術龍頭。

於是，隨著MoE逐漸成為寡頭的遊戲，一種新的技術思路走上台前——連橫派的CoE。

CoE（Collaboration-of-Experts），即專家協同模型。通俗來說，一個入口同時接入多家模型，而入口會在模型分析之前，增加一個意圖識別環節，然後才進行任務派解，決定任務是由哪款模型起作用，或者哪幾款模型打配合。相對於MoE，CoE最大的優勢是，各個專家模型之間可以彼此協同工作，但不存在綁定關係。

相比MoE，CoE的每個專家模型之間有更多的協同，更精準的分工，並且更靈活、更專業細分。這一思路，相比MoE，具有更高的效率，和更低的API接口和Token使用成本。

那麼，MoE與CoE哪種路線會更佔上風？

另一種解題思路：

什麼決定了用戶的智能體驗？

當週鴻禕一襲紅衣轉型AI教父時，360內部，關於如何CoE與MoE路線的論證，也在最近一年多時間里反復上演。

如果走MoE，360多年技術的積累，足以支撐打完這場仗。

而走CoE，就意味著與更多的大模型廠家同分一杯羹。

「三個臭皮匠，頂一個諸葛亮」給了360集團副總裁梁誌輝啟發，要將寶壓在CoE上：

一家企業，哪怕做到Open AI式「8項全能」，依然不免存在短板。但如果將最優秀的大模型企業能力，通過CoE能力，則意味著優勢互補與真正十八項全能的實現。

測評結果顯示，基於360 CoE AI能力的AI助手Beta版，在引入360智腦在內的16家國內最強大模型集各家所長後，已在11個單項能力測試指標上超越GPT-4o。

與此同時，即使將底層大模型能力「外包」，360依然能在 CoE 的浪潮中，找到自己的獨家定位。

從產品層面看， 360 CoE 產品AI助手可以被分成兩個部分：其中，語料積累與算法技術，主要依靠的是360智腦在內的16家國產大模型的接入，類似分工不同的特種兵；而360則充當指揮官的角色，通過意圖識別模型，來實現對於用戶意圖更加精準的理解；通過任務分解和調度模型，實現了對於眾多專家模型網絡（100+LLM）、千億規模知識中樞和200+第三方工具的智能調度，進而實現比MoE更高的靈活性和效率。

其背後的邏輯在於，當下階段，決定用戶側所能感知到的模型智能程度的幾大要素排序中，需求理解>語料積累>算法技術。

其中，語料大於算法的邏輯，主要體現在細分場景。一個不太恰當的比喻是，一個初高中搜題軟件在解決數學和物理問題上，都能秒殺GPT-4o。

關於如何理解需求理解的重要性，梁誌輝用360最新發佈的CoE AI工具AI助手舉了個例子，比如，關於「比如起床笫一件事是做什麼」的問題，大部分用戶期待的或許是一個養生型的答案，而一個熱愛弱智吧問答的用戶，期待的答案卻是睜眼。

在這種實際場景下，不同於客觀的評分與打榜，用戶對模型智能程度的感知，是主觀的。

而做好用戶的主觀意圖判斷，則需要對用戶歷史行為的積累。如果玩家是像360這樣有搜索引擎、瀏覽器數據積累的玩家，則意味著對用戶問題的拆解可以做到更加精準，更進一步，通過歷史數據，就能判定用戶的檢索意圖，一步給出最合適的答案。

確認了CoE與360的定位後，一個新的問題又隨即出現在眼前，基於以上功能設計，360基於CoE架構的AI助手，究竟是作為自家瀏覽器、搜索引擎、辦公產品中的附加功能，還是作為一個獨立應用存在。

最終路線定在兩相結合，前者提供更多場景，後者創造更多可能。

8月1日，ISC.AI2024第十二屆互聯網安全大會·人工智能峰會開幕上，360創始人周鴻禕正式發佈「AI助手」。在保留獨立的網址入口基礎上，AI助手也將其全面內置到360國民級入口產品，用戶不需要安裝插件，即可獲取AI體驗，與此同時，用戶使用AI助手功能時，還可以對模型一鍵切換，16家國內主流大模型，「哪家最強用哪家」。

AI助手的使用示範

選擇將AI助手內置到成熟應用的最直接原因是用戶體驗。

基礎的技術突破，是掄起錘子對一個釘子猛敲；而落地與商業，則是無數個名叫用戶體驗、場景連續、技術領先、產品生態的齒輪相嵌合，組成的龐大系統性工程。AI的使用需求，往往伴隨場景產生，比如網頁的翻譯，文章的擴寫。如果將這些功能放在不同頁面、插件甚至APP之間來回跳轉，則意味著使用流程的斷點與門檻。

發佈會上，周鴻禕對此做出了進一步解釋：

「大模型不是產品，而是能力，能力固然很重要，但能力一定要跟場景相結合，才能真正的產生價值。」「大模型像今天電器時代的電動機，這東西可大可小、可強可弱、可快可慢，就看怎麼用。比如把電動機拿到工廠傳送帶，就變成流水線，如果加上四個輪子、底盤、外殼，就能得到一輛汽車。發動機在過程中發揮著重要的作用，但是用戶並不需要直接發動機，用戶需要發動機提供的能力和很多部件相結合。」

用戶體驗之外，AI助手綁定瀏覽器的另一個優勢則在於成本。

用戶側成本而言，傳統的模式中，用戶獲得更精準的回答，往往只能選擇使用更大參數也更貴的大模型這一條路。而通過AI助手，基於CoE架構的意圖識別、任務路由模型，問題可以被精準分發匹配到最合適的模型回答，成本也隨之降低。

而在產業生態角度，AI助手被集成到安全衛士、瀏覽器中，則意味著對大模型幾乎零成本的流量導入。一般來說，大模型的成本，主要由訓練時的研發與硬件採購支出，以及推理時的網絡、算力消耗決定，與傳統的互聯網模式類似，前期的研發成本，會隨著後期用戶規模的擴大，而在單用戶訪問成本上被攤得越薄。

360旗下產品獲得了更多AI能力的加持，用戶獲得了更精準更順滑的使用體驗，大模型廠商獲得了免費的流量與繼續坐在牌桌上的資格。AI助手從頁面交互上看，或許只是一個新增功能的改變，但於大模型而言，卻是一場一魚三吃，產品、技術、用戶三贏的新商業模式的開端。

這也解釋了，為何不久前以阿里釘釘的號召力，爭取到的是「七個葫蘆娃」的入駐；而這次360發佈「AI助手」，卻正選就是16家，幾乎是把國內主流大模型廠商「一網打盡」。或許只有一家一家寫下來，才能感受到這個陣營以及這種號召力的強大：

大廠：百度、字節跳動、騰訊、阿里巴巴、華為；

五小虎：智譜AI、月之暗面、MiniMax、百川智能、零一萬物；

垂類頭部：商湯科技、科大訊飛、好未來、幻方量化、面壁智能。

尾聲

從大模型改變世界，到原子彈變茶葉蛋；從模型為王到合縱連橫，從MoE到CoE……短短兩年時間，大模型就走完了從初代產品一鳴驚人，到產業淘汰賽，再到商業化的三步走。

而大模型產業的進化速度，也正如其漫無邊際膨脹的參數，快速將對手挑落馬下，同時快速將自己送到了每一個新興賽道的終極之問面前：

要生存，還是要偉大。