大模型應用之困與異軍突起的「埃森哲們」

上週Anthropic發佈了Claude 3.5 Sonnet的升級,讓AI助手能夠通過”電腦使用”功能直接與計算機交互。這意味著Claude可以實現自動搜索文件、截取屏幕畫面、在應用程序間切換並執行基本任務。這些看上去很基礎的操作也許代表著生成式AI的重要轉折:從單純的對話助手,向真正的”自主代理”邁進——這正是包括OpenAI、Google在內的各大公司都在努力的方向。

Claude.ai 圖源:官網Claude.ai 圖源:官網

就在AI能力不斷突破的同時,真實的商業世界卻呈現出一個有趣的反差:在這輪生成式AI浪潮中最賺錢的公司,竟然是以埃森哲為代表的傳統諮詢公司。據埃森哲2024財年財報顯示,其生成式AI相關業務的新增訂單已達30億美元。在國內市場,字節、阿里和智譜等基座大模型供應商也在扮演著類似的角色。

在這期《矽谷101》中,我們邀請到了大模型領域的投資人和創業者:華映資本海外合夥人邱諄(Jonathan Qiu)AgentQL聯合創始人翟琦(Keith Zhai),請他們從投資人和創業者的雙重視角,探討大模型應用落地的挑戰,以及嘗試從「人工智能」的定義出發,聊聊投資人眼裡應用類公司的核心競爭力。

在本期對話中,兩位嘉賓深入剖析了當前AI應用遭遇的困境:當前的AI應用正處於”兩個月大的嬰兒”階段,整個生態系統尚未成型。最關鍵的是,與互聯網時代相比,AI時代缺少了類似瀏覽器這樣的操作系統層,導致應用與底座模型之間的邊界模糊。這直接影響了純應用公司的生存空間——它們既要考慮產品體驗,又要思考如何獲取和利用數據來構建自己的護城河。

在這種情況下,兩位嘉賓認為機會可能存在於三個方向:首先是多模態,因為這些領域需要自主研發底座模型,更容易形成技術壁壘;其次是在特定垂直領域深耕,用專業領域數據打造差異化優勢;最後則是基礎設施層面,幫助企業落地AI應用——這也解釋了為什麼諮詢公司能在這波浪潮中佔得先機。

以下是部分訪談精選

“相當於兩個月的嬰兒”:AI創業還處於不確定的風口

《矽谷101》:我們播客從2022年就在報導生成式AI,那時還是擴散模型的文生圖時代,ChatGPT還沒發佈。請問大家在投資創業過程中,跟隨這波AI浪潮的心態變化?

Keith:我們從去年下半年開始。這個行業太早期了,大多數公司是在ChatGPT3.0前後才開始關注。現在大家認為上一代AI和現在的AI是完全不同的兩種東西。

它就像一個兩個月大的小娃娃,每天都在成長。比如剛開始時,大家談論的agent其實完全不同。你說的可能是聊天機器人,我說的可能是動作模型,或者是工作流程自動化。這就像村上春樹說的”當我在跑步的時候你在想什麼,沒人知道你在說什麼”。

《矽谷101》:Keith,聽眾可能記得你之前華爾街日報記者時講東南亞詐騙的那期節目。現在你是以AI創業者身份參與,想知道你選擇AI創業時怎麼想的?當時市場是什麼樣?對比今天,在心態、融資、行業認知上最大的變化是什麼?

Keith:我之前做了20年記者。選擇轉行有很多原因,其中一個是我問了一個朋友,他是國內某大型上市公司的創始人。在酒吧里他告訴我:「這是範式革命(paradigm shift),像電器一樣不是某個行業的改變,是整個社會的改變。當你認為這是範式革命時,不需要想做什麼,需要的是進去開始做。」我用過很多上一代AI語言模型產品,它們都遠不如人類寫作。但第一次用GPT-3時,我內心非常震撼。

《矽谷101》:現在感受如何?

Keith:就像一直在水裡撲騰。我們去年到今年上半年一直在stealth隱身模式。剛完成A輪,但從沒感覺上過岸。這個行業變化太快了,跟過去不是一個量級,它對效率是根本性調整。過去做完A輪可能覺得要上岸了,但現在融資上幾個億的公司最後也都不行。所以上岸很難用融資階段來界定。

《矽谷101》:作為一位投資人和AI領域的專家,Jonathan你覺得從ChatGPT出現到現在,生成式AI的投資浪潮有什麼重大變化?

Jonathan:從核心上看並沒有根本轉變,因為投資的目的始終是商業化。不過我現在在思考一個問題,純應用可能存在風險,需要一定的技術整合能力。以ChatGPT為例,它是一個垂直整合的應用,既有應用層也有很強的底層能力。

說到agent,我之前在南加大讀博士時就研究agent,當時叫”多智能體協作”。那時人工智能有多個分支:機器學習、神經網絡、agent、自然語言處理和計算機視覺。我沒有選擇機器學習和神經網絡,但後來這兩個方向結合形成了深度學習,成為了整個領域的驅動力。現在的agent與當年最大的區別在於,現在都是圍繞深度學習展開的。

多智能體協作示意圖 圖源:吳恩達多智能體協作示意圖 圖源:吳恩達

從第一波機器視覺,包括無人駕駛、人臉識別,到今天的大模型,都是圍繞深度學習展開。在深度學習的範疇內,我們對應用的要求比以前要高。以前分為看應用和看模型兩派,但實際上這兩派是一致的,我們都會關注這兩個方面。

目前我們發現應用沒有大爆發,這導致底座模型也面臨挑戰。作為平台,它必須讓上層生態在各個垂直場景大規模落地才能體現價值。但現在GPT最常用的反而是它自己的應用。

創業公司商業化掣肘:有沒有私有化的數據?

《矽谷101》:你提到應用還沒有大爆發。比如我自己用ChatGPT寫採訪提綱和節目筆記時,它的表現還不夠理想。這是AI能力的問題嗎?

Jonathan:是的,這直接關係到AI的底層能力。我認為有以下幾點:

首先是底層能力,就像互聯網時代的思科提供網絡連接能力一樣。現在的大語言模型雖然已經很不錯了,但基礎設施還不夠完善。

其次是操作系統(OS)。互聯網時代有瀏覽器作為OS,正是Netscape瀏覽器的出現,才讓思科的基礎設施價值充分體現,各種網頁應用才開始爆發。移動互聯網則有iOS和Android。

但AI時代的OS是什麼?OpenAI嘗試用GPTs做OS,問題是應用層和底層模型的界限並不清晰。拿Jasper這樣的應用來說,很多功能GPT本身就能實現。而且應用層的數據和底座模型的數據往往非常相似。

Netscape Navigator 圖源:域奇百科Netscape Navigator 圖源:域奇百科

這種界限不清晰還體現在:當用戶問了一個問題得到答案時,很難判斷這個答案是由底座提供的還是由應用提供的。這和互聯網應用不同,比如Uber上哪些功能是iOS提供的,哪些是Uber自己提供的是很清晰的。

《矽谷101》:關於界限不清晰這點,我有不同看法。以Google的Notebook LM為例,表面上它看起來像GPT,但實際上它的功能很獨特。它能處理長文本並生成精確的總結,甚至能把播客內容轉換成研究報告。它抓取關鍵點和細節的能力非常強,比很多記者的水平都高。這可能是基於Gemini的底層模型能力,特別是在長文本處理方面。

Jonathan:這正是我想說的特點,你很難區分一個功能到底是應用層的貢獻還是底層模型的能力。AI應用與互聯網應用不同,它需要兩條線:一是產品設計,二是數據能力。產品設計讓用戶體驗流暢,這是互聯網產品經理的強項;數據能力則通過微調和RAG來增強底層模型。

以Notebook LM為例,雖然它現在表現出色,但如果是第三方公司用Gemini開發類似應用,核心競爭力就不會那麼強,因為長期來看還是要看底層模型的能力。這就是AI原生時代與互聯網時代的本質區別,數據的重要性變得前所未有的高。

NotebookLM, 圖源:GoogleNotebookLM, 圖源:Google

單純應用積累數據後,要考慮怎麼跟底座結合,是用微調還是RAG,甚至需要預訓練。要跟底座深度整合,或者自研一些底座支撐。像Perplexity這樣的公司就是開始比較輕的。

《矽谷101》:你說所有的應用公司最終都要發展底層模型,這是必然趨勢嗎?

Jonathan:在當前技術架構下,創業公司似乎別無選擇。因為你需要不斷積累數據來維護護城河,而數據越來越多後,你要考慮如何跟底座模型結合,是繼續用微調,還是用RAG,還是有些數據更適合預訓練。不管是微調還是RAG,都需要底座模型的支持,尤其是當你想做得更好時。如果你想走得長遠,建立高門檻的護城河,就必須與底座模型做更深度的結合,或者開始自研訓練。

Keith:我非常同意數據這一點。數據質量非常重要,結構化數據和非結構化數據會帶來不同的產品效果。

《矽谷101》:Jonathan你對人工智能有自己的定義,能和大家分享一下嗎?特別是為什麼數據如此重要?

Jonathan:人工智能的歷史從1950年代達特茅斯會議就開始了,包括agent(智能體)、自然語言處理、機器學習、神經網絡等多個分支。但我定義的產業化人工智能是從2012年開始的,核心就是深度學習。

2012年之前,所有計算機科學包括傳統人工智能都依賴人寫算法,有句話叫「人工智能有多智能主要看有多少人」。就像我從小開始就寫代碼,所有事情都要靠程序員一行行敲代碼。但2012年AlexNet出現後,把機器學習和神經網絡結合成了深度學習,不再依賴手寫代碼,而是通過大量數據訓練。

這形成了”AI三要素”:算法(AlexNet)、數據(李飛飛的ImageNet)和算力(吳恩達和GPU)。這三個要素結合產生了革命性突破,出現了一個「黑盒」模型,效果反而比人工編寫的「白盒」模型更好,只是可解釋性差一些。

到了2020年GPT-3出現後,第一次把人類積累的電子書、域奇百科、Reddit、知乎等所有內容作為訓練數據,效果超越了傳統自然語言處理的所有成果。現在語言模型完全是數據定義的,這就是為什麼在AI時代,你創業第一天就必須考慮數據。但關鍵是,「有用的數據」這個定義是動態的。比如Transformer出現前,很多數據都用不上,但現在它能處理這些語言數據,產生出超越傳統自然語言處理的模型。

《矽谷101》:Keith你覺得什麼樣的數據是有用的?

Keith:要從人工智能的本質來看,它是要模擬人類行為。人在網上做的就是讀和寫兩件事:讀是獲取信息,比如聽我們的播客,看影片;寫是基於信息採取行動,比如交易股票或者點擊按鈕。

但對機器來說,獲取數據很睏難,因為互聯網本來是為人設計的。每個網站都有自己的護城河,需要API或者寫爬蟲腳本才能獲取數據,這是最髒最累的活,沒人願意幹,而且永遠做不完。這導致很多做垂直領域的應用公司,它們的數據都差不多,沒有特別之處。

《矽谷101》:但這些創業公司怎麼能跟OpenAI這樣動輒獲得百億美元融資的公司競爭呢?

Jonathan:可以採取漸進式的方法,像爬樓梯一樣一步步來。因為按照Scaling Law(規模法則),數據越多,模型能力理論上就應該越強。雖然這需要越來越多的算力,但可以分步實現。

更重要的是差異化定位。OpenAI這樣的公司有平台訴求,要服務所有場景,教育、製造業、醫療都要覆蓋。但如果你放棄通用平台的訴求,專注於比如AI搜索這樣的垂直領域,把一件事做到極致,門檻反而成了護城河。

《矽谷101》:Perplexity它的底層是自己的模型還是建立在其他模型上?

Perplexity插畫,圖源:Cassie SunPerplexity插畫,圖源:Cassie Sun

Jonathan:剛開始並不是。我的總體定義是說要有底座潛力和底座能力的應用公司。因為它有DeepMind的背景,所以他們有這個思維。它可以有幾個step,剛開始可能就是套個殼,像GPTs那樣直接用API,做些RAG,然後開始做微調。但我想它到了一定層面一定會自己做,因為它要不斷積累自己的私有數據。它可以用這些數據再去做微調,同時也應該把這些數據去生成自己的底座。

《矽谷101》:如果Google或Microsoft也來做同樣的事情,那該怎麼比?

Jonathan:回到剛才那兩條線。作為一個AI原生的應用公司有兩個角色:第一是做好互聯網產品,這方面很多創業公司可能比模型公司或大廠做得更好,因為視角不同。很多確實從產品切入,開始可能就套個殼,但易用性和交互流暢性非常好,所以用戶一下就來了。

但這不代表你就成功了。就像最早的Jasper,它當時比GPT用得好是因為產品設計確實更優。但現在你要思考你的護城河在哪裡。

《矽谷101》:GPTs上有比較成功的公司嗎?

Jonathan:應該是沒有。在年初GPTs最火的時候。我直接問過一些開發者問這個問題:你有沒有私有數據?他們愣了很久,然後說「我為什麼需要私有數據呢?我們沒有數據。」

我又問「那你會不會擔憂你的護城河(defensibility)?」他們說護城河就是產品設計。這在互聯網年代是很通用的思維。為什麼互聯網應用公司能比大廠厲害,很多時候是在產品層面。他在產品設計上面,尤其是垂直領域,肯定比做底座或者大廠的人更有優勢。但是現在你要詳細考慮護城河的問題了。

《矽谷101》:Perplexity呢?

Jonathan:我覺得它一定會往底座去做。但這個可以有多種方法,你可以用開源底座去做一些繼續訓練。

你要從成本上考慮,一上來就全都重新訓練,成本太高了。但你可以做繼續訓練,這個難度也不低,可能比微調要更難一些。但即便是微調,微調跟繼續訓練有時候界限也開始模糊了。而且還有風險,做不好效果可能並不好。這些成本都要計算進去,但大方向一定是往這走。這就是你的護城河。

你要麼就不要有數據,就像GPTs那些。但很快GPTs也都沒有了。所以看商業化有時候也會有誤區,有些產品可能一段時間用戶看起來不錯,甚至有些收入。但只要沒有護城河,要麼就是被底座覆蓋掉了,要麼就是自己不能持續迭代下去了。

純應用不足以構築護城河,多模態更有機會

《矽谷101》:我在想這種創業公司的應用類的模型迭代,怎麼能捲得過像OpenAI這種動輒百億美元融資的公司。因為做底層模型需要自己買卡訓練,如果一個模型訓練得越來越大,智能真的湧現了,這些創業公司再去訓練底層模型的意義何在呢?

Jonathan:所以有幾種方法。一種就是我剛才說的一步一步來,有點像baby step。你的卡會越來越多,加上數據越來越多,理論上最後輸出的模型能力應該是越來越高的。

第二個就是聚焦。你可以做到跟OpenAI和國內六小龍的不同,因為所有做底座模型的人都有做平台的訴求,要賦能所有的上層應用,這樣就把它給攤平了。現在來了教育的、製造業的、醫療等垂直行業的都得服務。這是它跟你的最大區別,你可以放棄作為通用平台的訴求,就聚焦在比如AI搜索這樣一個垂直應用。我把這一件事情做好,整個底座模型都是為了這個,不是為了去做下一個iOS。這樣你會簡單很多。

《矽谷101》:還是回到了數據,護城河還是你垂直領域的數據的優秀程度、專業程度和精專程度。

Keith:有點像大語言模型是個推土機,我其實就想鑿個釘子。難道要拿推土機去鑿嗎?也可以也能弄進去,但何必呢?其實拿個小錘子嘣一下就進去了,那我就用小錘子不就得了。

《矽谷101》:Keith你有覺得比較好的商業化案例可以分享嗎?

Keith:美國本土還蠻多的。比如現在做coding的幾個很火,當然這也涉及到它會有多大的護城河這個問題,比如說GitHub要去做會怎樣。還有一個特別火的coding應用Devin,大模型時代「見光死」:demo做得好看,但正式發佈後發現完全用不了,這樣的產品太多了。

Devin發佈會, 圖源:官網Devin發佈會, 圖源:官網

Jonathan:Coding應用這個分界不是那麼清晰,因為也可以用GPT,現在很多碼農就直接用GPT幫他編程了。所以問題是你怎麼去創造一個分界。產品肯定要做得很好,但你要實現scaling law,要用私有數據去訓練,怎麼去跟底座的這些人競爭,做長期的競爭。

如果他們要問我建議,就是你得擁有自己的底座。如果一直用第三方的底座,你的風險永遠是大的,因為他們一定也在不斷訓練。

Keith:其實現在做得好的很多可能都是商業化做得比較好,就是在某一個點抓得準。像Harvey這樣做法律方向的大模型應用,也不知道多好用,但能講好故事。從真正大規模應用角度來說,還是很遙遠的。我覺得整個問題的核心還是太早。這是一個新的生產效率工具,但很多人把生產工具當成了生產力,這是一個誤區。

《矽谷101》:作為音頻工作者,我覺得Google的Notebook LM用來做長文本分析還是蠻好用的。另外有一家創業公司Elevenlabs我很喜歡,它可以把文字轉成很好的配音,或者用AI補錄音頻,效果比真人補錄還要自然。不過它在中文方面表現還不夠好。Elevenlabs在融資市場表現也很優秀,快到獨角獸級別了。還有像Suno這樣做文字生成音樂的,也融了很多錢。

Jonathan:這兩家都屬於跨模態、多模態的產品。我預測它們一定要往底座去延展。

《矽谷101》:它們其實是有底座的。

Jonathan:它們不僅有底座,在聲音處理上還有自己的獨特優勢,有一些paper。所以這些公司要有訓練數據,用自己的或半自研的底座去實現最終的模型功能。從這個角度講,多模態更符合我說的,因為沒有現成的第三方底座可用,你反而更需要自己去做很多事情。

《矽谷101》:所以現在整個市場上多模態的表現會不會更好一點?

Jonathan:對,這是我的預估。當然這是把雙刃劍,對你的要求更高。很多人會往這條路走,這樣從第一天開始就有護城河。不像純語言模型,你可以一開始沒有護城河,直接調用GPT就能出產品。但在多模態領域你要先做出些東西,所以它是把雙刃劍。

我個人也比較看好多模態,包括跨到硬件模態。如果能夠把硬件數據跟Robotic Transformer(RT)打通,把語言和硬件的傳感器數據、機械執行數據從訓練層就打通,我覺得這是多模態的一種體現,還是有蠻大空間的。

埃森哲生意越興隆,生態越沒有成立

Keith:本質上還是數據的獨特性、準確性和優勢。我問過美國幾家大的VC美國大企業對AI的接受程度如何,其中有一位負責人說吆喝聲很多,大家都想學想知道在討論,但真正能落地的還是很少。

現在大家做的都是AI諮詢,特別是RAG這塊是過去兩個季度最火的。因為作為公司的IT負責人,肯定要考慮公司接下來在AI方面要做什麼,要花錢,但可能還不知道該做什麼。最起碼可以先把架子搭起來,做AI方面的諮詢討論。

在美國,像埃森哲這樣最大的科技諮詢公司,光諮詢就賺得最多。第二季度生成式AI帶來了6億美元新增營收,第三季度漲到9億美元 (編者註:此處「新增營收」特指「由生成式AI帶來的新增訂單金額」,詳情請參考埃森哲財報) 。另一家VC跟我聊天時說,就是耍耍嘴皮子做兩個RAG,就拿到9億美金,就是這樣的現狀。

《矽谷101》:你有用過埃森哲的服務嗎?

Keith:我們用不起,太貴了。

Jonathan:諮詢公司在今天的地位其實符合我之前的理論。回看互聯網時代,很多公司說要做數字化、做網站,也會找外包和諮詢公司。比如我自己作為客戶,現在要做一個內部的投資GPT能回答投資問題,但因為有很多私有數據,不知道怎麼搭建,就需要找諮詢公司。事實上我們現在就在做,很多投資公司也在做這個事。

在互聯網時代,諮詢公司收入只佔很小部分。即使把埃森哲、麥肯錫這些外包公司加在一起也是。因為中間有OS,門檻降低了,大部分公司能自己做。以前做個簡單APP可能30萬人民幣左右。但在AI時代,諮詢成本很高,而且很多人都會用。因為中間有很高門檻,這件事不容易做。

而且形成一個矛盾,就是數據越多反而越頭疼。數據多本來是好事,但數據越多,首先成本抽取就很貴,可能需要用到AgentQL這樣的工具。然後還要訓練、要放到數據庫做RAG,所以乾脆找諮詢公司。

埃森哲生意越興隆,反而說明這個生態越沒有成立。都要靠第三方交付公司,這是我們觀察到的現狀。但這本身是個阻礙,必須得邁過去。

《矽谷101》:所以我理解在互聯網時代,用埃森哲這類公司幫做APP的比例小,是因為基礎設施比較完善,大多數公司可以自己做。

Jonathan:對,完善,然後OS也比較具備。

《矽谷101》:但在AI時代因為基礎設施不太完善,每個公司要根據自己的數據去定製模型,門檻還比較高。

Jonathan:對,要經過很多步驟,從數據到RAG。RAG看上去簡單但很多公司都做不好,需要對底座模型有理解。

Keith:可以理解為它解決了三個問題:第一是全新事物出現要做什麼,第二是怎麼做,第三是用什麼工具做。這就像假如全球突然變冷了,我們東北人都可以成為埃森哲,因為可以告訴大家冬天要做什麼,準備什麼樣的秋衣秋褲,要準備暖氣片,要冬儲大白菜等等。

《矽谷101》:那從投資角度看,是不是這個階段所有做中間服務、建設基礎設施的ToB公司,做服務的公司,做基礎架構的公司更有價值?

Jonathan:是很有機會的。比如Fireworks、Lepton這樣的公司,做GPU的Lambda,還有做數據的,包括Keith這樣的公司。從投資人角度,我們把這些都放在基礎設施裡面。技術設施很複雜,簡化下就是各種工具。

圖源:Pixabay圖源:Pixabay

但他們不改變生態,不會大大降低應用層的門檻。最好是底座大模型把這些事情都做了。這就是所謂交鑰匙工程,OpenAI就是往這個方向走的。他們也都在做Framework、算力優化等。

在今天生態沒完全打開的情況下,這些點狀工具都很有價值,但風險也比較大。因為整個技術棧都不清晰,大家都在互相重疊競爭。現在還是很早期,就像Keith說的是兩個月的baby。

《矽谷101》:在判斷這些中間層的ToB公司時,你覺得最核心的幾點能力是什麼?

Keith:我感覺剛才Jonathan已經把整個鏈條講得很清楚了。做基建從工程角度是最難的。但解決了最難的問題之後,在語言模型時代往上走一層反而容易。難的是選擇一個底層模型很難走進去的賽道,在這個賽道上把它做到最好。對我們來說語言模型不是目標,但是它是很重要的工具。我們做的事我們認為是語言模型永遠都解決不了的。

《矽谷101》:這還是需要對垂直行業的深度理解,和基於紮實的工作建立起來的基本功。

Keith:需要對工程的理解要遠遠勝過對語言模型的理解。

Jonathan:對。而且基礎設施的一個很強的可能性是找到一個可以交鑰匙的點,在某個垂直場景裡面成為一個操作系統。雖然不能一下變成瀏覽器或iOS,但可能在某個垂類裡面成為一個iOS。但想做一個非常泛的操作系統是有難度的。不過可以探索這條路,這樣跟底座的關係也比較容易切分。因為底座模型都想成為通用平台,不會在特別垂直的領域深耕,他們想做AI+所有東西。所以這塊是有機會的。

參考資料

https://investor.accenture.com/~/media/Files/A/Accenture-IR-V3/quarterly-earnings/2024/q3fy24/accenture-reports-third-quarter-fiscal-2024-results-.pdf

https://investor.accenture.com/~/media/Files/A/Accenture-IR-V3/quarterly-earnings/2024/q2fy24/accenture-reports-second-quarter-fiscal-2024-results-.pdf

本文來自微信公眾號「矽谷101」,作者:矽谷101,36氪經授權發佈。