大模型應用之困與異軍突起的「埃森哲們」

10月31日 12:06 新浪網 news-china-auto-hilite

上週Anthropic發佈了Claude 3.5 Sonnet的升級，讓AI助手能夠通過”電腦使用”功能直接與計算機交互。這意味著Claude可以實現自動搜索文件、截取屏幕畫面、在應用程序間切換並執行基本任務。這些看上去很基礎的操作也許代表著生成式AI的重要轉折：從單純的對話助手，向真正的”自主代理”邁進——這正是包括OpenAI、Google在內的各大公司都在努力的方向。

Claude.ai 圖源：官網

就在AI能力不斷突破的同時，真實的商業世界卻呈現出一個有趣的反差：在這輪生成式AI浪潮中最賺錢的公司，竟然是以埃森哲為代表的傳統諮詢公司。據埃森哲2024財年財報顯示，其生成式AI相關業務的新增訂單已達30億美元。在國內市場，字節、阿里和智譜等基座大模型供應商也在扮演著類似的角色。

在這期《矽谷101》中，我們邀請到了大模型領域的投資人和創業者：華映資本海外合夥人邱諄（Jonathan Qiu）和AgentQL聯合創始人翟琦（Keith Zhai），請他們從投資人和創業者的雙重視角，探討大模型應用落地的挑戰，以及嘗試從「人工智能」的定義出發，聊聊投資人眼裡應用類公司的核心競爭力。

在本期對話中，兩位嘉賓深入剖析了當前AI應用遭遇的困境：當前的AI應用正處於”兩個月大的嬰兒”階段，整個生態系統尚未成型。最關鍵的是，與互聯網時代相比，AI時代缺少了類似瀏覽器這樣的操作系統層，導致應用與底座模型之間的邊界模糊。這直接影響了純應用公司的生存空間——它們既要考慮產品體驗，又要思考如何獲取和利用數據來構建自己的護城河。

在這種情況下，兩位嘉賓認為機會可能存在於三個方向：首先是多模態，因為這些領域需要自主研發底座模型，更容易形成技術壁壘；其次是在特定垂直領域深耕，用專業領域數據打造差異化優勢；最後則是基礎設施層面，幫助企業落地AI應用——這也解釋了為什麼諮詢公司能在這波浪潮中佔得先機。

以下是部分訪談精選

“相當於兩個月的嬰兒”：AI創業還處於不確定的風口

《矽谷101》：我們播客從2022年就在報導生成式AI，那時還是擴散模型的文生圖時代，ChatGPT還沒發佈。請問大家在投資創業過程中，跟隨這波AI浪潮的心態變化？

Keith：我們從去年下半年開始。這個行業太早期了，大多數公司是在ChatGPT3.0前後才開始關注。現在大家認為上一代AI和現在的AI是完全不同的兩種東西。

它就像一個兩個月大的小娃娃，每天都在成長。比如剛開始時，大家談論的agent其實完全不同。你說的可能是聊天機器人，我說的可能是動作模型，或者是工作流程自動化。這就像村上春樹說的”當我在跑步的時候你在想什麼，沒人知道你在說什麼”。

《矽谷101》：Keith，聽眾可能記得你之前華爾街日報記者時講東南亞詐騙的那期節目。現在你是以AI創業者身份參與，想知道你選擇AI創業時怎麼想的？當時市場是什麼樣？對比今天，在心態、融資、行業認知上最大的變化是什麼？

Keith：我之前做了20年記者。選擇轉行有很多原因，其中一個是我問了一個朋友，他是國內某大型上市公司的創始人。在酒吧里他告訴我：「這是範式革命（paradigm shift），像電器一樣不是某個行業的改變，是整個社會的改變。當你認為這是範式革命時，不需要想做什麼，需要的是進去開始做。」我用過很多上一代AI語言模型產品，它們都遠不如人類寫作。但第一次用GPT-3時，我內心非常震撼。

《矽谷101》：現在感受如何？

Keith：就像一直在水裡撲騰。我們去年到今年上半年一直在stealth隱身模式。剛完成A輪，但從沒感覺上過岸。這個行業變化太快了，跟過去不是一個量級，它對效率是根本性調整。過去做完A輪可能覺得要上岸了，但現在融資上幾個億的公司最後也都不行。所以上岸很難用融資階段來界定。

《矽谷101》：作為一位投資人和AI領域的專家，Jonathan你覺得從ChatGPT出現到現在，生成式AI的投資浪潮有什麼重大變化？

Jonathan：從核心上看並沒有根本轉變，因為投資的目的始終是商業化。不過我現在在思考一個問題，純應用可能存在風險，需要一定的技術整合能力。以ChatGPT為例，它是一個垂直整合的應用，既有應用層也有很強的底層能力。

說到agent，我之前在南加大讀博士時就研究agent，當時叫”多智能體協作”。那時人工智能有多個分支：機器學習、神經網絡、agent、自然語言處理和計算機視覺。我沒有選擇機器學習和神經網絡，但後來這兩個方向結合形成了深度學習，成為了整個領域的驅動力。現在的agent與當年最大的區別在於，現在都是圍繞深度學習展開的。

多智能體協作示意圖圖源：吳恩達

從第一波機器視覺，包括無人駕駛、人臉識別，到今天的大模型，都是圍繞深度學習展開。在深度學習的範疇內，我們對應用的要求比以前要高。以前分為看應用和看模型兩派，但實際上這兩派是一致的，我們都會關注這兩個方面。

目前我們發現應用沒有大爆發，這導致底座模型也面臨挑戰。作為平台，它必須讓上層生態在各個垂直場景大規模落地才能體現價值。但現在GPT最常用的反而是它自己的應用。

創業公司商業化掣肘：有沒有私有化的數據？

《矽谷101》：你提到應用還沒有大爆發。比如我自己用ChatGPT寫採訪提綱和節目筆記時，它的表現還不夠理想。這是AI能力的問題嗎？

Jonathan：是的，這直接關係到AI的底層能力。我認為有以下幾點：

首先是底層能力，就像互聯網時代的思科提供網絡連接能力一樣。現在的大語言模型雖然已經很不錯了，但基礎設施還不夠完善。

其次是操作系統(OS)。互聯網時代有瀏覽器作為OS，正是Netscape瀏覽器的出現，才讓思科的基礎設施價值充分體現，各種網頁應用才開始爆發。移動互聯網則有iOS和Android。

但AI時代的OS是什麼？OpenAI嘗試用GPTs做OS，問題是應用層和底層模型的界限並不清晰。拿Jasper這樣的應用來說，很多功能GPT本身就能實現。而且應用層的數據和底座模型的數據往往非常相似。

Netscape Navigator 圖源：域奇百科

這種界限不清晰還體現在：當用戶問了一個問題得到答案時，很難判斷這個答案是由底座提供的還是由應用提供的。這和互聯網應用不同，比如Uber上哪些功能是iOS提供的，哪些是Uber自己提供的是很清晰的。

《矽谷101》：關於界限不清晰這點，我有不同看法。以Google的Notebook LM為例，表面上它看起來像GPT，但實際上它的功能很獨特。它能處理長文本並生成精確的總結，甚至能把播客內容轉換成研究報告。它抓取關鍵點和細節的能力非常強，比很多記者的水平都高。這可能是基於Gemini的底層模型能力，特別是在長文本處理方面。

Jonathan：這正是我想說的特點，你很難區分一個功能到底是應用層的貢獻還是底層模型的能力。AI應用與互聯網應用不同，它需要兩條線：一是產品設計，二是數據能力。產品設計讓用戶體驗流暢，這是互聯網產品經理的強項；數據能力則通過微調和RAG來增強底層模型。

以Notebook LM為例，雖然它現在表現出色，但如果是第三方公司用Gemini開發類似應用，核心競爭力就不會那麼強，因為長期來看還是要看底層模型的能力。這就是AI原生時代與互聯網時代的本質區別，數據的重要性變得前所未有的高。

NotebookLM，圖源：Google

單純應用積累數據後，要考慮怎麼跟底座結合，是用微調還是RAG，甚至需要預訓練。要跟底座深度整合，或者自研一些底座支撐。像Perplexity這樣的公司就是開始比較輕的。

《矽谷101》：你說所有的應用公司最終都要發展底層模型，這是必然趨勢嗎？

Jonathan：在當前技術架構下，創業公司似乎別無選擇。因為你需要不斷積累數據來維護護城河，而數據越來越多後，你要考慮如何跟底座模型結合，是繼續用微調，還是用RAG，還是有些數據更適合預訓練。不管是微調還是RAG，都需要底座模型的支持，尤其是當你想做得更好時。如果你想走得長遠，建立高門檻的護城河，就必須與底座模型做更深度的結合，或者開始自研訓練。

Keith：我非常同意數據這一點。數據質量非常重要，結構化數據和非結構化數據會帶來不同的產品效果。

《矽谷101》：Jonathan你對人工智能有自己的定義，能和大家分享一下嗎？特別是為什麼數據如此重要？

Jonathan：人工智能的歷史從1950年代達特茅斯會議就開始了，包括agent（智能體）、自然語言處理、機器學習、神經網絡等多個分支。但我定義的產業化人工智能是從2012年開始的，核心就是深度學習。

2012年之前，所有計算機科學包括傳統人工智能都依賴人寫算法，有句話叫「人工智能有多智能主要看有多少人」。就像我從小開始就寫代碼，所有事情都要靠程序員一行行敲代碼。但2012年AlexNet出現後，把機器學習和神經網絡結合成了深度學習，不再依賴手寫代碼，而是通過大量數據訓練。

這形成了”AI三要素”：算法（AlexNet）、數據（李飛飛的ImageNet）和算力（吳恩達和GPU）。這三個要素結合產生了革命性突破，出現了一個「黑盒」模型，效果反而比人工編寫的「白盒」模型更好，只是可解釋性差一些。

到了2020年GPT-3出現後，第一次把人類積累的電子書、域奇百科、Reddit、知乎等所有內容作為訓練數據，效果超越了傳統自然語言處理的所有成果。現在語言模型完全是數據定義的，這就是為什麼在AI時代，你創業第一天就必須考慮數據。但關鍵是，「有用的數據」這個定義是動態的。比如Transformer出現前，很多數據都用不上，但現在它能處理這些語言數據，產生出超越傳統自然語言處理的模型。

《矽谷101》：Keith你覺得什麼樣的數據是有用的？

Keith：要從人工智能的本質來看，它是要模擬人類行為。人在網上做的就是讀和寫兩件事：讀是獲取信息，比如聽我們的播客，看影片；寫是基於信息採取行動，比如交易股票或者點擊按鈕。

但對機器來說，獲取數據很睏難，因為互聯網本來是為人設計的。每個網站都有自己的護城河，需要API或者寫爬蟲腳本才能獲取數據，這是最髒最累的活，沒人願意幹，而且永遠做不完。這導致很多做垂直領域的應用公司，它們的數據都差不多，沒有特別之處。

《矽谷101》：但這些創業公司怎麼能跟OpenAI這樣動輒獲得百億美元融資的公司競爭呢？

Jonathan：可以採取漸進式的方法，像爬樓梯一樣一步步來。因為按照Scaling Law（規模法則），數據越多，模型能力理論上就應該越強。雖然這需要越來越多的算力，但可以分步實現。

更重要的是差異化定位。OpenAI這樣的公司有平台訴求，要服務所有場景，教育、製造業、醫療都要覆蓋。但如果你放棄通用平台的訴求，專注於比如AI搜索這樣的垂直領域，把一件事做到極致，門檻反而成了護城河。

《矽谷101》：Perplexity它的底層是自己的模型還是建立在其他模型上？

Perplexity插畫，圖源：Cassie Sun

Jonathan：剛開始並不是。我的總體定義是說要有底座潛力和底座能力的應用公司。因為它有DeepMind的背景，所以他們有這個思維。它可以有幾個step，剛開始可能就是套個殼，像GPTs那樣直接用API，做些RAG，然後開始做微調。但我想它到了一定層面一定會自己做，因為它要不斷積累自己的私有數據。它可以用這些數據再去做微調，同時也應該把這些數據去生成自己的底座。

《矽谷101》：如果Google或Microsoft也來做同樣的事情，那該怎麼比？

Jonathan：回到剛才那兩條線。作為一個AI原生的應用公司有兩個角色：第一是做好互聯網產品，這方面很多創業公司可能比模型公司或大廠做得更好，因為視角不同。很多確實從產品切入，開始可能就套個殼，但易用性和交互流暢性非常好，所以用戶一下就來了。

但這不代表你就成功了。就像最早的Jasper，它當時比GPT用得好是因為產品設計確實更優。但現在你要思考你的護城河在哪裡。

《矽谷101》：GPTs上有比較成功的公司嗎？

Jonathan：應該是沒有。在年初GPTs最火的時候。我直接問過一些開發者問這個問題：你有沒有私有數據？他們愣了很久，然後說「我為什麼需要私有數據呢？我們沒有數據。」

我又問「那你會不會擔憂你的護城河(defensibility)？」他們說護城河就是產品設計。這在互聯網年代是很通用的思維。為什麼互聯網應用公司能比大廠厲害，很多時候是在產品層面。他在產品設計上面，尤其是垂直領域，肯定比做底座或者大廠的人更有優勢。但是現在你要詳細考慮護城河的問題了。

《矽谷101》：Perplexity呢？

Jonathan：我覺得它一定會往底座去做。但這個可以有多種方法，你可以用開源底座去做一些繼續訓練。

你要從成本上考慮，一上來就全都重新訓練，成本太高了。但你可以做繼續訓練，這個難度也不低，可能比微調要更難一些。但即便是微調，微調跟繼續訓練有時候界限也開始模糊了。而且還有風險，做不好效果可能並不好。這些成本都要計算進去，但大方向一定是往這走。這就是你的護城河。

你要麼就不要有數據，就像GPTs那些。但很快GPTs也都沒有了。所以看商業化有時候也會有誤區，有些產品可能一段時間用戶看起來不錯，甚至有些收入。但只要沒有護城河，要麼就是被底座覆蓋掉了，要麼就是自己不能持續迭代下去了。

純應用不足以構築護城河，多模態更有機會

《矽谷101》：我在想這種創業公司的應用類的模型迭代，怎麼能捲得過像OpenAI這種動輒百億美元融資的公司。因為做底層模型需要自己買卡訓練，如果一個模型訓練得越來越大，智能真的湧現了，這些創業公司再去訓練底層模型的意義何在呢？

Jonathan：所以有幾種方法。一種就是我剛才說的一步一步來，有點像baby step。你的卡會越來越多，加上數據越來越多，理論上最後輸出的模型能力應該是越來越高的。

第二個就是聚焦。你可以做到跟OpenAI和國內六小龍的不同，因為所有做底座模型的人都有做平台的訴求，要賦能所有的上層應用，這樣就把它給攤平了。現在來了教育的、製造業的、醫療等垂直行業的都得服務。這是它跟你的最大區別，你可以放棄作為通用平台的訴求，就聚焦在比如AI搜索這樣一個垂直應用。我把這一件事情做好，整個底座模型都是為了這個，不是為了去做下一個iOS。這樣你會簡單很多。

《矽谷101》：還是回到了數據，護城河還是你垂直領域的數據的優秀程度、專業程度和精專程度。

Keith：有點像大語言模型是個推土機，我其實就想鑿個釘子。難道要拿推土機去鑿嗎？也可以也能弄進去，但何必呢？其實拿個小錘子嘣一下就進去了，那我就用小錘子不就得了。

《矽谷101》：Keith你有覺得比較好的商業化案例可以分享嗎？

Keith：美國本土還蠻多的。比如現在做coding的幾個很火，當然這也涉及到它會有多大的護城河這個問題，比如說GitHub要去做會怎樣。還有一個特別火的coding應用Devin，大模型時代「見光死」：demo做得好看，但正式發佈後發現完全用不了，這樣的產品太多了。

Devin發佈會，圖源：官網

Jonathan：Coding應用這個分界不是那麼清晰，因為也可以用GPT，現在很多碼農就直接用GPT幫他編程了。所以問題是你怎麼去創造一個分界。產品肯定要做得很好，但你要實現scaling law，要用私有數據去訓練，怎麼去跟底座的這些人競爭，做長期的競爭。

如果他們要問我建議，就是你得擁有自己的底座。如果一直用第三方的底座，你的風險永遠是大的，因為他們一定也在不斷訓練。

Keith：其實現在做得好的很多可能都是商業化做得比較好，就是在某一個點抓得準。像Harvey這樣做法律方向的大模型應用，也不知道多好用，但能講好故事。從真正大規模應用角度來說，還是很遙遠的。我覺得整個問題的核心還是太早。這是一個新的生產效率工具，但很多人把生產工具當成了生產力，這是一個誤區。

《矽谷101》：作為音頻工作者，我覺得Google的Notebook LM用來做長文本分析還是蠻好用的。另外有一家創業公司Elevenlabs我很喜歡，它可以把文字轉成很好的配音，或者用AI補錄音頻，效果比真人補錄還要自然。不過它在中文方面表現還不夠好。Elevenlabs在融資市場表現也很優秀，快到獨角獸級別了。還有像Suno這樣做文字生成音樂的，也融了很多錢。

Jonathan：這兩家都屬於跨模態、多模態的產品。我預測它們一定要往底座去延展。

《矽谷101》：它們其實是有底座的。

Jonathan：它們不僅有底座，在聲音處理上還有自己的獨特優勢，有一些paper。所以這些公司要有訓練數據，用自己的或半自研的底座去實現最終的模型功能。從這個角度講，多模態更符合我說的，因為沒有現成的第三方底座可用，你反而更需要自己去做很多事情。

《矽谷101》：所以現在整個市場上多模態的表現會不會更好一點？

Jonathan：對，這是我的預估。當然這是把雙刃劍，對你的要求更高。很多人會往這條路走，這樣從第一天開始就有護城河。不像純語言模型，你可以一開始沒有護城河，直接調用GPT就能出產品。但在多模態領域你要先做出些東西，所以它是把雙刃劍。

我個人也比較看好多模態，包括跨到硬件模態。如果能夠把硬件數據跟Robotic Transformer(RT)打通，把語言和硬件的傳感器數據、機械執行數據從訓練層就打通，我覺得這是多模態的一種體現，還是有蠻大空間的。

埃森哲生意越興隆，生態越沒有成立

Keith：本質上還是數據的獨特性、準確性和優勢。我問過美國幾家大的VC美國大企業對AI的接受程度如何，其中有一位負責人說吆喝聲很多，大家都想學想知道在討論，但真正能落地的還是很少。

現在大家做的都是AI諮詢，特別是RAG這塊是過去兩個季度最火的。因為作為公司的IT負責人，肯定要考慮公司接下來在AI方面要做什麼，要花錢，但可能還不知道該做什麼。最起碼可以先把架子搭起來，做AI方面的諮詢討論。

在美國，像埃森哲這樣最大的科技諮詢公司，光諮詢就賺得最多。第二季度生成式AI帶來了6億美元新增營收，第三季度漲到9億美元（編者註：此處「新增營收」特指「由生成式AI帶來的新增訂單金額」，詳情請參考埃森哲財報）。另一家VC跟我聊天時說，就是耍耍嘴皮子做兩個RAG，就拿到9億美金，就是這樣的現狀。

《矽谷101》：你有用過埃森哲的服務嗎？

Keith：我們用不起，太貴了。

Jonathan：諮詢公司在今天的地位其實符合我之前的理論。回看互聯網時代，很多公司說要做數字化、做網站，也會找外包和諮詢公司。比如我自己作為客戶，現在要做一個內部的投資GPT能回答投資問題，但因為有很多私有數據，不知道怎麼搭建，就需要找諮詢公司。事實上我們現在就在做，很多投資公司也在做這個事。

在互聯網時代，諮詢公司收入只佔很小部分。即使把埃森哲、麥肯錫這些外包公司加在一起也是。因為中間有OS，門檻降低了，大部分公司能自己做。以前做個簡單APP可能30萬人民幣左右。但在AI時代，諮詢成本很高，而且很多人都會用。因為中間有很高門檻，這件事不容易做。

而且形成一個矛盾，就是數據越多反而越頭疼。數據多本來是好事，但數據越多，首先成本抽取就很貴，可能需要用到AgentQL這樣的工具。然後還要訓練、要放到數據庫做RAG，所以乾脆找諮詢公司。

埃森哲生意越興隆，反而說明這個生態越沒有成立。都要靠第三方交付公司，這是我們觀察到的現狀。但這本身是個阻礙，必須得邁過去。

《矽谷101》：所以我理解在互聯網時代，用埃森哲這類公司幫做APP的比例小，是因為基礎設施比較完善，大多數公司可以自己做。

Jonathan：對，完善，然後OS也比較具備。

《矽谷101》：但在AI時代因為基礎設施不太完善，每個公司要根據自己的數據去定製模型，門檻還比較高。

Jonathan：對，要經過很多步驟，從數據到RAG。RAG看上去簡單但很多公司都做不好，需要對底座模型有理解。

Keith：可以理解為它解決了三個問題：第一是全新事物出現要做什麼，第二是怎麼做，第三是用什麼工具做。這就像假如全球突然變冷了，我們東北人都可以成為埃森哲，因為可以告訴大家冬天要做什麼，準備什麼樣的秋衣秋褲，要準備暖氣片，要冬儲大白菜等等。

《矽谷101》：那從投資角度看，是不是這個階段所有做中間服務、建設基礎設施的ToB公司，做服務的公司，做基礎架構的公司更有價值？

Jonathan：是很有機會的。比如Fireworks、Lepton這樣的公司，做GPU的Lambda，還有做數據的，包括Keith這樣的公司。從投資人角度，我們把這些都放在基礎設施裡面。技術設施很複雜，簡化下就是各種工具。

圖源：Pixabay

但他們不改變生態，不會大大降低應用層的門檻。最好是底座大模型把這些事情都做了。這就是所謂交鑰匙工程，OpenAI就是往這個方向走的。他們也都在做Framework、算力優化等。

在今天生態沒完全打開的情況下，這些點狀工具都很有價值，但風險也比較大。因為整個技術棧都不清晰，大家都在互相重疊競爭。現在還是很早期，就像Keith說的是兩個月的baby。

《矽谷101》：在判斷這些中間層的ToB公司時，你覺得最核心的幾點能力是什麼？

Keith：我感覺剛才Jonathan已經把整個鏈條講得很清楚了。做基建從工程角度是最難的。但解決了最難的問題之後，在語言模型時代往上走一層反而容易。難的是選擇一個底層模型很難走進去的賽道，在這個賽道上把它做到最好。對我們來說語言模型不是目標，但是它是很重要的工具。我們做的事我們認為是語言模型永遠都解決不了的。

《矽谷101》：這還是需要對垂直行業的深度理解，和基於紮實的工作建立起來的基本功。

Keith：需要對工程的理解要遠遠勝過對語言模型的理解。

Jonathan：對。而且基礎設施的一個很強的可能性是找到一個可以交鑰匙的點，在某個垂直場景裡面成為一個操作系統。雖然不能一下變成瀏覽器或iOS，但可能在某個垂類裡面成為一個iOS。但想做一個非常泛的操作系統是有難度的。不過可以探索這條路，這樣跟底座的關係也比較容易切分。因為底座模型都想成為通用平台，不會在特別垂直的領域深耕，他們想做AI+所有東西。所以這塊是有機會的。

參考資料

https://investor.accenture.com/~/media/Files/A/Accenture-IR-V3/quarterly-earnings/2024/q3fy24/accenture-reports-third-quarter-fiscal-2024-results-.pdf

https://investor.accenture.com/~/media/Files/A/Accenture-IR-V3/quarterly-earnings/2024/q2fy24/accenture-reports-second-quarter-fiscal-2024-results-.pdf

本文來自微信公眾號「矽谷101」，作者：矽谷101，36氪經授權發佈。

你可能喜歡