李彥宏內部講話流出：曝大模型「刷榜」潛規則，談三大認知誤區

09月12日 14:15 新浪網 news-china-auto-hilite

新智元報導

編輯：編輯部

【新智元導讀】大模型更新速度放緩，一些人開始唱衰AI，難道AI真的進入了寒冬？最近，李彥宏一次內部講話曝出，闡述了人們對LLM的三大認知誤區。

榜單，並不能代表模型實力

大模型時代，閉源比開源在商業場景更有優勢

智能體，還未成為共識

這是李彥宏近期在內部講話中，所闡述出公眾和行業對大模型的三大認知誤區。

2024年已過大半，AI行業技術在過去一年坐上過山車之後，逐漸進入冷靜期。

GPT-4之後，OpenAI一直按兵不動，遲遲未更新下一代模型。而Llama 3等開源模型的誕生，性能逼近閉源模型。

行業中，質疑聲不斷湧現：大模型是不是一場新的科技泡沫？

大模型之間是不是已經沒有技術壁壘了？還要繼續投入基礎模型的研究嗎？開源模型拿來直接用是不是就可以？未來AI應用的發展方向在哪裡？

這些，都是技術降溫時，縈繞在所有人頭腦中的疑問。

在剛剛曝光的內部講話中，李彥宏對這些問題給出了自己的答案和思考，並指出了AI未來的發展方向。

同時，他堅定地認為——智能體，才是AI時代的未來趨勢。

內部講話首次曝光：LLM三大誤區

1. 模型能力，已無壁壘？

對於「大模型之間的能力已經不存在壁壘」這種說法，李彥宏給出了不同觀點。

「每次新模型發佈，都和GPT-4o做比較，說我的得分已經跟它差不多了，甚至某些單項上得分已經超過它了，但這並不表明和最先進的模型就沒有差距了」。

實際上，模型之間的差距是多維度的。一個維度是能力方面，比如理解、生成、記憶、邏輯推理等基本能力的差距；另一個維度是成本和推理速度。

很多公司或者用戶對於模型能力的評價是片面的，往往只關注前者，但卻忽視了後者，這就導致了對於單一榜單的過度迷戀。

為了讓自家模型得高分，有的廠商會對測試集「進行over-fitting」。

比如，讓數據標註員把評測題做一遍，或者讓GPT-4做一遍，再把答案喂給自家模型，相當於讓模型「刷題」考高分。

這樣從榜單或者測試集上看，就會讓人覺得，模型之間的能力已經很接近了，但在實際應用場景中，就會暴露出明顯的差距，出現「高分低能」。

一些模型會刷榜時，會通過輸出詳盡且格式完備的回答來「操控」人類偏好

一些模型會刷榜時，會通過輸出詳盡且格式完備的回答來「操控」人類偏好

李彥宏表示，百度是不允許技術人員「打榜」。真正衡量文心大模型能力的，是在具體應用場景中能否滿足用戶的需求，能否產生有價值的增益。

透過各種各樣的榜單和分數，我們需要看到，一方面模型能力之間還有比較明顯的差距，另外一方面，天花板也很高。

今天已經實現的模型性能，和我們實際想要的理想狀態，還有很遠的距離。

因此，模型還需要不斷的快速迭代、更新、升級。不同的模型之間差距不會是越來越小，而是會越來越大的。即使今天的差距看似很小，再過一年時間，就會有天翻地覆的變化。

這個過程，就是看有誰能夠持續不斷地幾年甚至十幾年投入，讓模型越來越能夠滿足場景和用戶，實現效率提升或成本降低。

對於所謂的領先12個月或者落後18個月，李彥宏認為並沒有那麼重要。

在這個完全競爭的市場環境中，無論做什麼方向都有很多競爭對手，因此不要覺得12～18個月是很短的時間。如果能保證永遠領先對手12～18個月，哪怕是6個月，那都是「天下無敵」的水平。

2. 開源已趕上，閉源沒優勢？

我們從軟件時代走來，因此有一種固定的思維模式——「開源一定好」，但這在大模型時代卻不一定正確。

軟件時代，開源的優勢是建立在低廉的算力和硬件成本之上的，但對於大模型來說，算力和硬件卻是無法被忽略的關鍵因素。

比如開源的Linux，因為用戶已經有了電腦，所以使用起來幾乎沒有成本；但是大模型時代，算力是「命根子」，是決定成敗的關鍵因素，即使是開源模型，也無法直接促進算力的高效利用。

正如上一個問題中提到的，大模型除了能力或效果之外，還要看效率。效率上，開源模型是不行的。

閉源模型，或者準確地講應該叫商業化模型，相當於無數個用戶或客戶共享同樣的資源，分攤研發成本和推理所用的硬件、GPU，這樣的算力效率是最高的。

以百度為例，目前文心大模型每天調用量超過6億、生成的token數量超過萬億，GPU使用率達到了90%以上。

但如果在商業場景下使用開源模型，就需要部署自己的GPU、自己找算力，無處分擔推理成本。最終綜合起來，不如選擇商業化模型划算。

所以，開源大模型的價值主要體現在教學、科研等領域，開放的源代碼可以讓我們弄清大模型的工作原理；但商業領域追求的是效率、效果和最低成本，開源模型是沒有優勢的。

3. AI應用難落地，商業化沒路徑？

李彥宏表示，大模型應用的發展必然要經歷幾個階段。

一開始是對人進行輔助，產出的結果都需要人來把關，檢查無誤、確定效果後才能使用，這是Copilot階段；

再往下走，就是Agent智能體，有了一定的自主性，具備自主使用工具、反思、自我進化等能力；

這種自動化程度再往下走，就變成所謂的Al Worker，能夠像人一樣做各種各樣的腦力和體力勞動，各方面的工作都可以獨立完成。

過去一年，很多目光都聚焦在多模態領域，但其實忽略了，智能體才是目前最能激發大模型潛力的應用方向。

為什麼這麼強調智能體？因為智能體的門檻確實很低。

很多人不知道怎麼把大模型變成應用，這其中有很多不確定性，而智能體是一個非常直接、高效、簡單的方式，在模型之上構建智能體相當方便。

百度在Create大會上發佈了三個產品：AgentBuilder、AppBuilder和ModelBuilder，其中AgentBuilder和AppBuilder都是關於智能體的，一個門檻更低，另一個功能更強大。

這些工具引起了開發者們的興趣，讓智能體的熱度逐漸提升。目前，文心平台上每週都能創造出上萬個新的智能體。

https://agents.baidu.com/center

https://agents.baidu.com/center

然而，「智能體是大模型最重要的發展方向」這個判斷，其實並沒有形成共識，因此還有很大的發展潛力。

百度在智能體方面已經看到了趨勢，而且具備比較好的發展條件。除了模型本身的能力比較強大之外，也有分發通路的優勢。

百度的APP，尤其是百度搜索的日活躍用戶能達到幾億級別，因此能直接捕捉到用戶的需求，知道哪一個智能體能更好地去回答問題、滿足需求。這個自然匹配的過程也最能夠幫助開發者們分發智能體。

百度智能體，已邁入深水區

CEO李彥宏在多次內外部講話中，都明確了表示智能體對於AI應用的重要性，倡導全行業持續投入智能體生態。

6月的「亞布力企業家走進百度」活動中，李彥宏預言，未來將會有幾百萬，甚至更大量的智能體出現，形成龐大生態。

「未來，各行各業、各個領域都會依據具體的場景，根據自己特有的經驗、規則、數據，做出來這些智能體。」

這些智能體不僅能對話，還具備反思和規劃能力，未來或許還將具備協作能力。

「就像公司里有CEO，還有財務、技術、銷售主管，他們協作起來，能完成一個非常複雜的任務。」如果多個智能體可以協作，將會對整個生態的發展形成極大推動。

談及企業做智能體的方向，李彥宏表示，如果僅僅是針對理解、生成、邏輯和記憶等基礎能力做改進或集成，價值不大；但在各個不同場景中，利用好特有的數據，就能逐漸積累出自身的競爭優勢。

「大模型對於ToB業務的改造，會是非常深刻和徹底的，比互聯網對於ToB的影響力要大一個數量級。今天，大模型在B端的影響已經大於C端了。」

今年7月WAIC的圓桌訪談和演講中，李彥宏再次表示，在AI應用的發展方向上，最看好智能體，智能體代表著AI時代的未來趨勢。

基礎模型需要靠應用才能顯現出價值，而智能體是一個幾乎「放之四海而皆準」的大模型應用。

因為門檻足夠低，甚至都不需要編程，只要用「人話」把工作流說清楚，再配以專有知識庫，就能做出一個效果不錯的，甚至很有價值的智能體，比互聯網時代製作一個網頁還簡單。

「智能體正在爆發，只是現在基數還比較小，大家的體感沒有那麼強烈。讓更多人進來、發揮聰明才智，指不定哪條路跑通了，就是一個Super APP。」

雖然有巨大的潛力，但是像百度這樣，將智能體定位為大模型最重要戰略、最重要發展方向的公司，並不多見。

在百度文心智能體平台AgentBuilder上，已有20萬開發者、6.3萬企業入駐，在百度開發智能體的商戶已達1.6萬家。

7月，AgentBuilder平台還做出了重大舉措，免費開放文心大模型4.0供開發者使用。

根據今年第二季度的財報，智能體在百度生態的分發量正在快速上升，百度搜索已經成為分發的最大入口。

以7月份為例，日均分發次數超800萬，是5月的兩倍。其中最常用的智能體包括內容創作、性格測試、日程規劃等應用類型，覆蓋教育、法律和B2B等行業。

作為AI應用的先行者，百度對智能體領域的率先嘗試、大力押注，讓我們看到了大模型生態落地應用的廣闊前景。

如果李彥宏的預言成真，大模型不僅不會淪為泡沫，反而是更大、更繁榮市場的開始，大模型+智能體將引領移動互聯網之後的下一次技術浪潮。