11項指標擊敗GPT-4o！360攢局讓16家大模型聯手作戰，組成最強「六邊形戰士」

08月05日 13:22 新浪網 news-china-auto-hilite

基爾西發自凹非寺

量子位 | 公眾號 QbitAI

終於，國產大模型能在綜合能力上也能與GPT-4o一決雌雄了。

在12項指標的測試中，這個模型有11項都超過了GPT-4o，綜合能力則高出了10個百分點。

而且在詩詞賞析等中文特色領域優勢更加明顯，「最難中文Benchmark」弱智吧也有重大突破。

不過，這並不是一家大模型廠商單打獨鬥的結果，而是由16家廠商組成的「聯合戰隊」。

戰隊的發起者是360，除了自己參與外，包括BAT在內的大廠有百度、字節跳動、騰訊、阿里巴巴、華為，國產大模型「五小虎」，智譜AI、月之暗面、MiniMax、百川智能、零一萬物，還有五家頭部垂類廠商，商湯科技、科大訊飛、好未來、幻方量化、面壁智能，總計16家廠商都已悉數到齊。（註：以上排名不分先後）

現在，這個「聯合戰隊」已經被請進了產品——在AI助手當中，所有用戶都能免費使用。

十多個大模型給你打工

在 AI助手當中，16家廠商的大模型已齊聚一堂，可以在同一平台直接對話，想選哪個就選哪個。

而且中途還可以隨時切換模型，系統會記住前面的上下文，讓後面的模型繼續完成對話。

比如在下面這個對話窗口中，我們問了智譜9.11和9.8哪個大，然後就把模型切換成了星火，直接問是怎麼比的。

從對話中可以看出，後面換上來的星火準確地得知了「怎麼比的」這四個字問的是小數大小的比較。

當然，針對同一問題，也可以直接召喚出另一家的模型現場PK。

在模型PK的同時，我們也能看到更多的信息或答案，不僅可以讓答案更詳盡，還能交叉驗證。

舉個例子，我們提出了關於電視劇《雍正王朝》中兩個角色關係的問題，問題首先提給了智譜。

接著我們又讓文心一言也來回答一下，看看能不能獲取到更多的信息，結果智譜的回答沒有錯，文心一言則給出了更為詳細的補充。

更關鍵的是360 AI助手針對選擇困難症患者，或者不清楚哪個模型更合適的用戶也極為友好。

只要選擇「AI助手」本體作為對話模型，系統就會根據對話內容判斷你的意圖，然後根據任務類型自動匹配最合適的模型。

比如在完成寫作類任務的時候，AI助手就會給我們分配擅長文案的豆包。

遇到編程問題，就會召喚代碼能力較強的DeepSeek。

以邏輯推理為主的問題，可能會讓智譜來應對。

當然界面中所展示的任務分類比較具有概括性，實際運行過程中AI助手還對任務進行了更細粒度的劃分。

另外，在選擇模型的同時，AI助手還會先進行聯網搜索。

所以，使用AI助手的另一個好處就是可以獲得最新的信息，而不必擔心模型的知識庫更新時間。

針對一些常見任務，AI助手平台還準備了專用的助手，能夠更好地實現這些功能。

除了在網頁中使用，AI助手還有另外兩大入口——桌面和360安全瀏覽器。

比如在360安全瀏覽器中，安裝好AI助手插件，在瀏覽網頁時就會在右下角看到一個懸浮球。

點擊一下就可以在右側邊欄中召喚出AI助手，寫作時也可以在同一個窗口中快速和AI對話了。

另外在鼠標劃過懸浮球時，上方還會出現一個新的按鈕，點擊之後就可以對當前瀏覽的頁面進行一鍵總結。

頁面里的細節內容，也可以向AI助手提問。

而且還支持總結英文內容。

另外就是針對頁面中的個別詞句，選中後會出現AI助手的工具條，可以對選中部分進行翻譯、解釋，或聯網檢索更多相關信息。

桌面端則依託360安全衛士實現，功能與瀏覽器相似，但把劃詞召喚的範圍從網頁擴展到了整個系統。

那麼在AI助手的背後，又運用了什麼樣的技術呢？

獨創「專家協同」架構

實際上，這種根據需求調度大模型的用法，也剛好是360推出的一項新技術——CoE（Collaboration-of-Experts），即專家協同架構。

我們知道，很多國產模型在單項指標上都打和甚至超越了OpenAI，但論綜合實力，差距就顯現出來了。

而360的思路，是改變這種「單打獨鬥」的模式，構建大模型「專家集群」，組成混合大模型，從而各取所長，以「聯合戰隊」的方式迎戰GPT-4o。

結果，基於360 CoE架構的、由16家國產大模型組成的混合大模型在12項指標的測試中取得了80.49分的綜合成績，超越了GPT-4o的69.22分。

而且除了代碼以外，其餘11項指標均優於GPT-4o。

特別是在「弱智吧」和詩詞賞析這類比較具有中文特色的問題上，CoE的領先優勢更加明顯。

相比於MoE（Mixture-of-Experts，混合專家）架構，360的CoE模型在速度、智能和成本三個層次上都擁有顯著的優勢。

CoE通過意圖識別和任務調度，最優化推理資源分配，提升效率，降低成本，推理成本下降90%。

為了能夠以最高效的方式對CoE架構中的模型進行調度，至少有兩方面的工作不可或缺。

一是對這些模型能力的全面評估，只有這樣，才能瞭解每個模型所擅長的領域，知道應該給模型分配什麼樣的任務。

為此，360對專家庫中的模型在12個領域的表現進行了全方位測試，摸清了模型的特色能力。

△除GPT-4o外，其餘模型名稱已隱去

△除GPT-4o外，其餘模型名稱已隱去

另一個方面，就是用戶意圖的解讀了——對任務需求的理解，顯然是分配模型不可或缺的基礎。

基於過去10年在做搜索引擎時積累的技術和數據，360訓練出了能識別超過1億種意圖分類的專用模型。

讓AI更加普惠

除了技術功底，我們不僅還想問，360是如何組局，讓15家大模型廠商「盡入轂中」的呢？

360公司創始人兼董事長周鴻禕介紹，眾廠商願意合作的出發點在於大模型投資巨大，只有有人用才有可能覆蓋成本，才能不斷改進產品。

而360擁有大量用戶，可以開放桌面和瀏覽器兩大明星場景，可以給這些模型帶來龐大的用戶群體。

相比於插件，這兩個入口讓用戶離大模型的能力非常近，而大模型今天最大的需求恰恰就是接近場景和用戶，用戶才能使用。

另外，集成式的AI助手規避了單個大模型的能力短板，各取所長能夠超過GPT-4o，這就給了廠商一個讓用戶接觸使用的機會，未來還好釋放出更多的場景。

可以說，360 AI助手的這種模式，是AGI到來前一種很好的提升模型水平的方案，對提高AI滲透率也有所裨益。

最近，國內的大模型廠商開始形成共識，變得更加開放，紛紛提供的更便宜的Token API。

所以，360對這桌面和瀏覽器兩個入口的開放，不僅是為了「聚天下英才」，也是在順應這種走向開放的大趨勢。

站在更高的層次上，360還希望實現AI向著更多人的普惠。

周鴻禕認為，AI並不是會不淘汰人，而是會淘汰不懂得用AI的人；而對於會用的人來說，AI將是強有力的工具。

但同時，AI本身也不應該居高臨下，而是應該讓願意學習它的人都有機會掌握。

這就是360所講的AI普惠——讓所有人能夠享受AI帶來的能力，避免落後於AI時代。

AI助手傳送門：

https://bot.360.com