11項指標擊敗GPT-4o!360攢局讓16家大模型聯手作戰,組成最強「六邊形戰士」

基爾西 發自 凹非寺

量子位 | 公眾號 QbitAI

終於,國產大模型能在綜合能力上也能與GPT-4o一決雌雄了。

在12項指標的測試中,這個模型有11項都超過了GPT-4o,綜合能力則高出了10個百分點

而且在詩詞賞析等中文特色領域優勢更加明顯,「最難中文Benchmark」弱智吧也有重大突破

不過,這並不是一家大模型廠商單打獨鬥的結果,而是由16家廠商組成的「聯合戰隊」

戰隊的發起者是360,除了自己參與外,包括BAT在內的大廠有百度、字節跳動、騰訊、阿里巴巴、華為,國產大模型「五小虎」, 智譜AI、月之暗面、MiniMax、百川智能、零一萬物,還有五家頭部垂類廠商,商湯科技、科大訊飛、好未來、幻方量化、面壁智能,總計16家廠商都已悉數到齊。(註:以上排名不分先後)

現在,這個「聯合戰隊」已經被請進了產品——在AI助手當中,所有用戶都能免費使用。

十多個大模型給你打工

在 AI助手當中,16家廠商的大模型已齊聚一堂,可以在同一平台直接對話,想選哪個就選哪個

而且中途還可以隨時切換模型,系統會記住前面的上下文,讓後面的模型繼續完成對話。

比如在下面這個對話窗口中,我們問了智譜9.11和9.8哪個大,然後就把模型切換成了星火,直接問是怎麼比的。

從對話中可以看出,後面換上來的星火準確地得知了「怎麼比的」這四個字問的是小數大小的比較。

當然,針對同一問題,也可以直接召喚出另一家的模型現場PK

在模型PK的同時,我們也能看到更多的信息或答案,不僅可以讓答案更詳盡,還能交叉驗證。

舉個例子,我們提出了關於電視劇《雍正王朝》中兩個角色關係的問題,問題首先提給了智譜。

接著我們又讓文心一言也來回答一下,看看能不能獲取到更多的信息,結果智譜的回答沒有錯,文心一言則給出了更為詳細的補充。

更關鍵的是360 AI助手針對選擇困難症患者,或者不清楚哪個模型更合適的用戶也極為友好。

只要選擇「AI助手」本體作為對話模型,系統就會根據對話內容判斷你的意圖,然後根據任務類型自動匹配最合適的模型

比如在完成寫作類任務的時候,AI助手就會給我們分配擅長文案的豆包。

遇到編程問題,就會召喚代碼能力較強的DeepSeek。

以邏輯推理為主的問題,可能會讓智譜來應對。

當然界面中所展示的任務分類比較具有概括性,實際運行過程中AI助手還對任務進行了更細粒度的劃分。

另外,在選擇模型的同時,AI助手還會先進行聯網搜索。

所以,使用AI助手的另一個好處就是可以獲得最新的信息,而不必擔心模型的知識庫更新時間。

針對一些常見任務,AI助手平台還準備了專用的助手,能夠更好地實現這些功能。

除了在網頁中使用,AI助手還有另外兩大入口——桌面和360安全瀏覽器

比如在360安全瀏覽器中,安裝好AI助手插件,在瀏覽網頁時就會在右下角看到一個懸浮球。

點擊一下就可以在右側邊欄中召喚出AI助手,寫作時也可以在同一個窗口中快速和AI對話了。

另外在鼠標劃過懸浮球時,上方還會出現一個新的按鈕,點擊之後就可以對當前瀏覽的頁面進行一鍵總結。

頁面里的細節內容,也可以向AI助手提問。

而且還支持總結英文內容。

另外就是針對頁面中的個別詞句,選中後會出現AI助手的工具條,可以對選中部分進行翻譯、解釋,或聯網檢索更多相關信息。

桌面端則依託360安全衛士實現,功能與瀏覽器相似,但把劃詞召喚的範圍從網頁擴展到了整個系統。

那麼在AI助手的背後,又運用了什麼樣的技術呢?

獨創「專家協同」架構

實際上,這種根據需求調度大模型的用法,也剛好是360推出的一項新技術——CoE(Collaboration-of-Experts),即專家協同架構

我們知道,很多國產模型在單項指標上都打和甚至超越了OpenAI,但論綜合實力,差距就顯現出來了。

而360的思路,是改變這種「單打獨鬥」的模式,構建大模型「專家集群」,組成混合大模型,從而各取所長,以「聯合戰隊」的方式迎戰GPT-4o。

結果,基於360 CoE架構的、由16家國產大模型組成的混合大模型在12項指標的測試中取得了80.49分的綜合成績,超越了GPT-4o的69.22分。

而且除了代碼以外,其餘11項指標均優於GPT-4o。

特別是在「弱智吧」和詩詞賞析這類比較具有中文特色的問題上,CoE的領先優勢更加明顯。

相比於MoE(Mixture-of-Experts,混合專家)架構,360的CoE模型在速度、智能和成本三個層次上都擁有顯著的優勢。

CoE通過意圖識別和任務調度,最優化推理資源分配,提升效率,降低成本,推理成本下降90%

為了能夠以最高效的方式對CoE架構中的模型進行調度,至少有兩方面的工作不可或缺。

一是對這些模型能力的全面評估,只有這樣,才能瞭解每個模型所擅長的領域,知道應該給模型分配什麼樣的任務。

為此,360對專家庫中的模型在12個領域的表現進行了全方位測試,摸清了模型的特色能力。

△除GPT-4o外,其餘模型名稱已隱去除GPT-4o外,其餘模型名稱已隱去

另一個方面,就是用戶意圖的解讀了——對任務需求的理解,顯然是分配模型不可或缺的基礎。

基於過去10年在做搜索引擎時積累的技術和數據,360訓練出了能識別超過1億種意圖分類的專用模型。

讓AI更加普惠

除了技術功底,我們不僅還想問,360是如何組局,讓15家大模型廠商「盡入轂中」的呢?

360公司創始人兼董事長周鴻禕介紹,眾廠商願意合作的出發點在於大模型投資巨大,只有有人用才有可能覆蓋成本,才能不斷改進產品

而360擁有大量用戶,可以開放桌面和瀏覽器兩大明星場景,可以給這些模型帶來龐大的用戶群體。

相比於插件,這兩個入口讓用戶離大模型的能力非常近,而大模型今天最大的需求恰恰就是接近場景和用戶,用戶才能使用。

另外,集成式的AI助手規避了單個大模型的能力短板,各取所長能夠超過GPT-4o,這就給了廠商一個讓用戶接觸使用的機會,未來還好釋放出更多的場景。

可以說,360 AI助手的這種模式,是AGI到來前一種很好的提升模型水平的方案,對提高AI滲透率也有所裨益。

最近,國內的大模型廠商開始形成共識,變得更加開放,紛紛提供的更便宜的Token API。

所以,360對這桌面和瀏覽器兩個入口的開放,不僅是為了「聚天下英才」,也是在順應這種走向開放的大趨勢。

站在更高的層次上,360還希望實現AI向著更多人的普惠

周鴻禕認為,AI並不是會不淘汰人,而是會淘汰不懂得用AI的人;而對於會用的人來說,AI將是強有力的工具。

但同時,AI本身也不應該居高臨下,而是應該讓願意學習它的人都有機會掌握。

這就是360所講的AI普惠——讓所有人能夠享受AI帶來的能力,避免落後於AI時代。

AI助手傳送門:

https://bot.360.com