李彥宏內部講話流出:曝大模型「刷榜」潛規則,談三大認知誤區
新智元報導
編輯:編輯部
【新智元導讀】大模型更新速度放緩,一些人開始唱衰AI,難道AI真的進入了寒冬?最近,李彥宏一次內部講話曝出,闡述了人們對LLM的三大認知誤區。
榜單,並不能代表模型實力
大模型時代,閉源比開源在商業場景更有優勢
智能體,還未成為共識
這是李彥宏近期在內部講話中,所闡述出公眾和行業對大模型的三大認知誤區。
2024年已過大半,AI行業技術在過去一年坐上過山車之後,逐漸進入冷靜期。
GPT-4之後,OpenAI一直按兵不動,遲遲未更新下一代模型。而Llama 3等開源模型的誕生,性能逼近閉源模型。
行業中,質疑聲不斷湧現:大模型是不是一場新的科技泡沫?
大模型之間是不是已經沒有技術壁壘了?還要繼續投入基礎模型的研究嗎?開源模型拿來直接用是不是就可以?未來AI應用的發展方向在哪裡?
這些,都是技術降溫時,縈繞在所有人頭腦中的疑問。
在剛剛曝光的內部講話中,李彥宏對這些問題給出了自己的答案和思考,並指出了AI未來的發展方向。
同時,他堅定地認為——智能體,才是AI時代的未來趨勢。
內部講話首次曝光:LLM三大誤區
1. 模型能力,已無壁壘?
對於「大模型之間的能力已經不存在壁壘」這種說法,李彥宏給出了不同觀點。
「每次新模型發佈,都和GPT-4o做比較,說我的得分已經跟它差不多了,甚至某些單項上得分已經超過它了,但這並不表明和最先進的模型就沒有差距了」。
實際上,模型之間的差距是多維度的。一個維度是能力方面,比如理解、生成、記憶、邏輯推理等基本能力的差距;另一個維度是成本和推理速度。
很多公司或者用戶對於模型能力的評價是片面的,往往只關注前者,但卻忽視了後者,這就導致了對於單一榜單的過度迷戀。
為了讓自家模型得高分,有的廠商會對測試集「進行over-fitting」。
比如,讓數據標註員把評測題做一遍,或者讓GPT-4做一遍,再把答案喂給自家模型,相當於讓模型「刷題」考高分。
這樣從榜單或者測試集上看,就會讓人覺得,模型之間的能力已經很接近了,但在實際應用場景中,就會暴露出明顯的差距,出現「高分低能」。
李彥宏表示,百度是不允許技術人員「打榜」。真正衡量文心大模型能力的,是在具體應用場景中能否滿足用戶的需求,能否產生有價值的增益。
透過各種各樣的榜單和分數,我們需要看到,一方面模型能力之間還有比較明顯的差距,另外一方面,天花板也很高。
今天已經實現的模型性能,和我們實際想要的理想狀態,還有很遠的距離。
因此,模型還需要不斷的快速迭代、更新、升級。不同的模型之間差距不會是越來越小,而是會越來越大的。即使今天的差距看似很小,再過一年時間,就會有天翻地覆的變化。
這個過程,就是看有誰能夠持續不斷地幾年甚至十幾年投入,讓模型越來越能夠滿足場景和用戶,實現效率提升或成本降低。
對於所謂的領先12個月或者落後18個月,李彥宏認為並沒有那麼重要。
在這個完全競爭的市場環境中,無論做什麼方向都有很多競爭對手,因此不要覺得12~18個月是很短的時間。如果能保證永遠領先對手12~18個月,哪怕是6個月,那都是「天下無敵」的水平。
2. 開源已趕上,閉源沒優勢?
我們從軟件時代走來,因此有一種固定的思維模式——「開源一定好」,但這在大模型時代卻不一定正確。
軟件時代,開源的優勢是建立在低廉的算力和硬件成本之上的,但對於大模型來說,算力和硬件卻是無法被忽略的關鍵因素。
比如開源的Linux,因為用戶已經有了電腦,所以使用起來幾乎沒有成本;但是大模型時代,算力是「命根子」,是決定成敗的關鍵因素,即使是開源模型,也無法直接促進算力的高效利用。
正如上一個問題中提到的,大模型除了能力或效果之外,還要看效率。效率上,開源模型是不行的。
閉源模型,或者準確地講應該叫商業化模型,相當於無數個用戶或客戶共享同樣的資源,分攤研發成本和推理所用的硬件、GPU,這樣的算力效率是最高的。
以百度為例,目前文心大模型每天調用量超過6億、生成的token數量超過萬億,GPU使用率達到了90%以上。
但如果在商業場景下使用開源模型,就需要部署自己的GPU、自己找算力,無處分擔推理成本。最終綜合起來,不如選擇商業化模型划算。
所以,開源大模型的價值主要體現在教學、科研等領域,開放的源代碼可以讓我們弄清大模型的工作原理;但商業領域追求的是效率、效果和最低成本,開源模型是沒有優勢的。
3. AI應用難落地,商業化沒路徑?
李彥宏表示,大模型應用的發展必然要經歷幾個階段。
一開始是對人進行輔助,產出的結果都需要人來把關,檢查無誤、確定效果後才能使用,這是Copilot階段;
再往下走,就是Agent智能體,有了一定的自主性,具備自主使用工具、反思、自我進化等能力;
這種自動化程度再往下走,就變成所謂的Al Worker,能夠像人一樣做各種各樣的腦力和體力勞動,各方面的工作都可以獨立完成。
過去一年,很多目光都聚焦在多模態領域,但其實忽略了,智能體才是目前最能激發大模型潛力的應用方向。
為什麼這麼強調智能體?因為智能體的門檻確實很低。
很多人不知道怎麼把大模型變成應用,這其中有很多不確定性,而智能體是一個非常直接、高效、簡單的方式,在模型之上構建智能體相當方便。
百度在Create大會上發佈了三個產品:AgentBuilder、AppBuilder和ModelBuilder,其中AgentBuilder和AppBuilder都是關於智能體的,一個門檻更低,另一個功能更強大。
這些工具引起了開發者們的興趣,讓智能體的熱度逐漸提升。目前,文心平台上每週都能創造出上萬個新的智能體。
然而,「智能體是大模型最重要的發展方向」這個判斷,其實並沒有形成共識,因此還有很大的發展潛力。
百度在智能體方面已經看到了趨勢,而且具備比較好的發展條件。除了模型本身的能力比較強大之外,也有分發通路的優勢。
百度的APP,尤其是百度搜索的日活躍用戶能達到幾億級別,因此能直接捕捉到用戶的需求,知道哪一個智能體能更好地去回答問題、滿足需求。這個自然匹配的過程也最能夠幫助開發者們分發智能體。
百度智能體,已邁入深水區
CEO李彥宏在多次內外部講話中,都明確了表示智能體對於AI應用的重要性,倡導全行業持續投入智能體生態。
6月的「亞布力企業家走進百度」活動中,李彥宏預言,未來將會有幾百萬,甚至更大量的智能體出現,形成龐大生態。
「未來,各行各業、各個領域都會依據具體的場景,根據自己特有的經驗、規則、數據,做出來這些智能體。」
這些智能體不僅能對話,還具備反思和規劃能力,未來或許還將具備協作能力。
「就像公司里有CEO,還有財務、技術、銷售主管,他們協作起來,能完成一個非常複雜的任務。」如果多個智能體可以協作,將會對整個生態的發展形成極大推動。
談及企業做智能體的方向,李彥宏表示,如果僅僅是針對理解、生成、邏輯和記憶等基礎能力做改進或集成,價值不大;但在各個不同場景中,利用好特有的數據,就能逐漸積累出自身的競爭優勢。
「大模型對於ToB業務的改造,會是非常深刻和徹底的,比互聯網對於ToB的影響力要大一個數量級。今天,大模型在B端的影響已經大於C端了。」
今年7月WAIC的圓桌訪談和演講中,李彥宏再次表示,在AI應用的發展方向上,最看好智能體,智能體代表著AI時代的未來趨勢。
基礎模型需要靠應用才能顯現出價值,而智能體是一個幾乎「放之四海而皆準」的大模型應用。
因為門檻足夠低,甚至都不需要編程,只要用「人話」把工作流說清楚,再配以專有知識庫,就能做出一個效果不錯的,甚至很有價值的智能體,比互聯網時代製作一個網頁還簡單。
「智能體正在爆發,只是現在基數還比較小,大家的體感沒有那麼強烈。讓更多人進來、發揮聰明才智,指不定哪條路跑通了,就是一個Super APP。」
雖然有巨大的潛力,但是像百度這樣,將智能體定位為大模型最重要戰略、最重要發展方向的公司,並不多見。
在百度文心智能體平台AgentBuilder上,已有20萬開發者、6.3萬企業入駐,在百度開發智能體的商戶已達1.6萬家。
7月,AgentBuilder平台還做出了重大舉措,免費開放文心大模型4.0供開發者使用。
根據今年第二季度的財報,智能體在百度生態的分發量正在快速上升,百度搜索已經成為分發的最大入口。
以7月份為例,日均分發次數超800萬,是5月的兩倍。其中最常用的智能體包括內容創作、性格測試、日程規劃等應用類型,覆蓋教育、法律和B2B等行業。
作為AI應用的先行者,百度對智能體領域的率先嘗試、大力押注,讓我們看到了大模型生態落地應用的廣闊前景。
如果李彥宏的預言成真,大模型不僅不會淪為泡沫,反而是更大、更繁榮市場的開始,大模型+智能體將引領移動互聯網之後的下一次技術浪潮。