李彥宏內部講話流出:曝大模型「刷榜」潛規則,談三大認知誤區

新智元報導  

編輯:編輯部

【新智元導讀】大模型更新速度放緩,一些人開始唱衰AI,難道AI真的進入了寒冬?最近,李彥宏一次內部講話曝出,闡述了人們對LLM的三大認知誤區。

榜單,並不能代表模型實力

大模型時代,閉源比開源在商業場景更有優勢

智能體,還未成為共識

這是李彥宏近期在內部講話中,所闡述出公眾和行業對大模型的三大認知誤區。

2024年已過大半,AI行業技術在過去一年坐上過山車之後,逐漸進入冷靜期。

GPT-4之後,OpenAI一直按兵不動,遲遲未更新下一代模型。而Llama 3等開源模型的誕生,性能逼近閉源模型。

行業中,質疑聲不斷湧現:大模型是不是一場新的科技泡沫?

大模型之間是不是已經沒有技術壁壘了?還要繼續投入基礎模型的研究嗎?開源模型拿來直接用是不是就可以?未來AI應用的發展方向在哪裡?

這些,都是技術降溫時,縈繞在所有人頭腦中的疑問。

在剛剛曝光的內部講話中,李彥宏對這些問題給出了自己的答案和思考,並指出了AI未來的發展方向。

同時,他堅定地認為——智能體,才是AI時代的未來趨勢。

內部講話首次曝光:LLM三大誤區

1. 模型能力,已無壁壘?

對於「大模型之間的能力已經不存在壁壘」這種說法,李彥宏給出了不同觀點。

「每次新模型發佈,都和GPT-4o做比較,說我的得分已經跟它差不多了,甚至某些單項上得分已經超過它了,但這並不表明和最先進的模型就沒有差距了」。

實際上,模型之間的差距是多維度的。一個維度是能力方面,比如理解、生成、記憶、邏輯推理等基本能力的差距;另一個維度是成本和推理速度。

很多公司或者用戶對於模型能力的評價是片面的,往往只關注前者,但卻忽視了後者,這就導致了對於單一榜單的過度迷戀。

為了讓自家模型得高分,有的廠商會對測試集「進行over-fitting」。

比如,讓數據標註員把評測題做一遍,或者讓GPT-4做一遍,再把答案喂給自家模型,相當於讓模型「刷題」考高分。

這樣從榜單或者測試集上看,就會讓人覺得,模型之間的能力已經很接近了,但在實際應用場景中,就會暴露出明顯的差距,出現「高分低能」。

一些模型會刷榜時,會通過輸出詳盡且格式完備的回答來「操控」人類偏好一些模型會刷榜時,會通過輸出詳盡且格式完備的回答來「操控」人類偏好

李彥宏表示,百度是不允許技術人員「打榜」。真正衡量文心大模型能力的,是在具體應用場景中能否滿足用戶的需求,能否產生有價值的增益。

透過各種各樣的榜單和分數,我們需要看到,一方面模型能力之間還有比較明顯的差距,另外一方面,天花板也很高。

今天已經實現的模型性能,和我們實際想要的理想狀態,還有很遠的距離。

因此,模型還需要不斷的快速迭代、更新、升級。不同的模型之間差距不會是越來越小,而是會越來越大的。即使今天的差距看似很小,再過一年時間,就會有天翻地覆的變化。

這個過程,就是看有誰能夠持續不斷地幾年甚至十幾年投入,讓模型越來越能夠滿足場景和用戶,實現效率提升或成本降低。

對於所謂的領先12個月或者落後18個月,李彥宏認為並沒有那麼重要。

在這個完全競爭的市場環境中,無論做什麼方向都有很多競爭對手,因此不要覺得12~18個月是很短的時間。如果能保證永遠領先對手12~18個月,哪怕是6個月,那都是「天下無敵」的水平。

2. 開源已趕上,閉源沒優勢?

我們從軟件時代走來,因此有一種固定的思維模式——「開源一定好」,但這在大模型時代卻不一定正確。

軟件時代,開源的優勢是建立在低廉的算力和硬件成本之上的,但對於大模型來說,算力和硬件卻是無法被忽略的關鍵因素。

比如開源的Linux,因為用戶已經有了電腦,所以使用起來幾乎沒有成本;但是大模型時代,算力是「命根子」,是決定成敗的關鍵因素,即使是開源模型,也無法直接促進算力的高效利用。

正如上一個問題中提到的,大模型除了能力或效果之外,還要看效率。效率上,開源模型是不行的。

閉源模型,或者準確地講應該叫商業化模型,相當於無數個用戶或客戶共享同樣的資源,分攤研發成本和推理所用的硬件、GPU,這樣的算力效率是最高的。

以百度為例,目前文心大模型每天調用量超過6億、生成的token數量超過萬億,GPU使用率達到了90%以上。

但如果在商業場景下使用開源模型,就需要部署自己的GPU、自己找算力,無處分擔推理成本。最終綜合起來,不如選擇商業化模型划算。

所以,開源大模型的價值主要體現在教學、科研等領域,開放的源代碼可以讓我們弄清大模型的工作原理;但商業領域追求的是效率、效果和最低成本,開源模型是沒有優勢的。

3. AI應用難落地,商業化沒路徑?

李彥宏表示,大模型應用的發展必然要經歷幾個階段。

一開始是對人進行輔助,產出的結果都需要人來把關,檢查無誤、確定效果後才能使用,這是Copilot階段;

再往下走,就是Agent智能體,有了一定的自主性,具備自主使用工具、反思、自我進化等能力;

這種自動化程度再往下走,就變成所謂的Al Worker,能夠像人一樣做各種各樣的腦力和體力勞動,各方面的工作都可以獨立完成。

過去一年,很多目光都聚焦在多模態領域,但其實忽略了,智能體才是目前最能激發大模型潛力的應用方向。

為什麼這麼強調智能體?因為智能體的門檻確實很低。

很多人不知道怎麼把大模型變成應用,這其中有很多不確定性,而智能體是一個非常直接、高效、簡單的方式,在模型之上構建智能體相當方便。

百度在Create大會上發佈了三個產品:AgentBuilder、AppBuilder和ModelBuilder,其中AgentBuilder和AppBuilder都是關於智能體的,一個門檻更低,另一個功能更強大。

這些工具引起了開發者們的興趣,讓智能體的熱度逐漸提升。目前,文心平台上每週都能創造出上萬個新的智能體。

https://agents.baidu.com/centerhttps://agents.baidu.com/center

然而,「智能體是大模型最重要的發展方向」這個判斷,其實並沒有形成共識,因此還有很大的發展潛力。

百度在智能體方面已經看到了趨勢,而且具備比較好的發展條件。除了模型本身的能力比較強大之外,也有分發通路的優勢。

百度的APP,尤其是百度搜索的日活躍用戶能達到幾億級別,因此能直接捕捉到用戶的需求,知道哪一個智能體能更好地去回答問題、滿足需求。這個自然匹配的過程也最能夠幫助開發者們分發智能體。

百度智能體,已邁入深水區

CEO李彥宏在多次內外部講話中,都明確了表示智能體對於AI應用的重要性,倡導全行業持續投入智能體生態。

6月的「亞布力企業家走進百度」活動中,李彥宏預言,未來將會有幾百萬,甚至更大量的智能體出現,形成龐大生態。

「未來,各行各業、各個領域都會依據具體的場景,根據自己特有的經驗、規則、數據,做出來這些智能體。」

這些智能體不僅能對話,還具備反思和規劃能力,未來或許還將具備協作能力。

「就像公司里有CEO,還有財務、技術、銷售主管,他們協作起來,能完成一個非常複雜的任務。」如果多個智能體可以協作,將會對整個生態的發展形成極大推動。

談及企業做智能體的方向,李彥宏表示,如果僅僅是針對理解、生成、邏輯和記憶等基礎能力做改進或集成,價值不大;但在各個不同場景中,利用好特有的數據,就能逐漸積累出自身的競爭優勢。

「大模型對於ToB業務的改造,會是非常深刻和徹底的,比互聯網對於ToB的影響力要大一個數量級。今天,大模型在B端的影響已經大於C端了。」

今年7月WAIC的圓桌訪談和演講中,李彥宏再次表示,在AI應用的發展方向上,最看好智能體,智能體代表著AI時代的未來趨勢。

基礎模型需要靠應用才能顯現出價值,而智能體是一個幾乎「放之四海而皆準」的大模型應用。

因為門檻足夠低,甚至都不需要編程,只要用「人話」把工作流說清楚,再配以專有知識庫,就能做出一個效果不錯的,甚至很有價值的智能體,比互聯網時代製作一個網頁還簡單。

「智能體正在爆發,只是現在基數還比較小,大家的體感沒有那麼強烈。讓更多人進來、發揮聰明才智,指不定哪條路跑通了,就是一個Super APP。」

雖然有巨大的潛力,但是像百度這樣,將智能體定位為大模型最重要戰略、最重要發展方向的公司,並不多見。

在百度文心智能體平台AgentBuilder上,已有20萬開發者、6.3萬企業入駐,在百度開發智能體的商戶已達1.6萬家。

7月,AgentBuilder平台還做出了重大舉措,免費開放文心大模型4.0供開發者使用。

根據今年第二季度的財報,智能體在百度生態的分發量正在快速上升,百度搜索已經成為分發的最大入口。

以7月份為例,日均分發次數超800萬,是5月的兩倍。其中最常用的智能體包括內容創作、性格測試、日程規劃等應用類型,覆蓋教育、法律和B2B等行業。

作為AI應用的先行者,百度對智能體領域的率先嘗試、大力押注,讓我們看到了大模型生態落地應用的廣闊前景。

如果李彥宏的預言成真,大模型不僅不會淪為泡沫,反而是更大、更繁榮市場的開始,大模型+智能體將引領移動互聯網之後的下一次技術浪潮。