深度|Alexandr Wang 最新 a16z 對談:AI 領域三大支柱企業 —— 英偉達、OpenAI 和 Scale AI

近日,Scale AI 創始人&CEO Alexandr Wang 與 a16z 合夥人 David George 展開了深入對話。

Alexandr Wang 表示,AI 的進展依賴於計算能力、算法創新和數據資源,而 Scale AI 專注於推動前沿數據的生成,支持 AI 在前沿技術中的進步。

與去年同期相比,Scale 今年上半年銷售額幾乎增長了三倍,達到近 4 億美元,為大型客機公司標記數據已經成為一項巨大的業務,預計今年收入將達到近 10 億美元。

現有的公開數據資源已被充分利用,未來 AI 發展的核心在於如何生成新的高複雜度、前沿數據,並在此基礎上推動更高水平的智能進步。

他強調,在公司快速擴張過程中,招聘大量新員工反而可能降低組織的整體績效。關鍵在於保持小規模、高效的團隊,並確保外部高管能深入理解公司的運作節奏後,再逐步引導變革。

此外,他還將 AGI 定義為能夠完成 80% 以上人類可通過計算機完成的數字化工作,雖然這一目標並非短期內可實現,但隨著算法創新,未來 4 年內或許能看到早期跡象。

以下為這次對話的主要內容,enjoy~

David George:

我總是很喜歡和你聊天,每次都能學到很多。我們可以先聊聊你在 Scale AI 正在構建的東西,然後深入探討。

Alexandr Wang:

好的,在 Scale ,我們正在為 AI 構建數據鑄造廠。從大的層面來看, AI 歸結為三大支柱:計算、數據和算法。

我們所看到的所有進展都來自這三個方面:計算由像 Nvidia 這樣的公司推動,算法的進步由像 OpenAI 這樣的大型實驗室引領,而數據則由 Scale 提供。

我們的目標是生產前沿數據,以推動與各大實驗室合作的前沿水平進步,並使每個企業和政府能夠利用他們的專有數據來推動自己的前沿 AI 發展。

David George:

關於前沿數據這個話題,實際上你是如何獲得這些數據的呢?

Alexandr Wang:

是的,我認為這是我們這個時代的偉大人類項目之一。如果這有意義的話,我認為目前唯一的智慧模型就是人類,而前沿數據的生產很像是人類專家與技術和算法技術的結合,以生產大量此類數據。順便說一句,迄今為止我們所產生的所有數據,互聯網也是類似的。

在很多方面,互聯網是機器和人類合作產生大量內容和數據的成果。而未來的情況可能就像增強版的互聯網:如果互聯網不僅僅是一個人類娛樂設備,而是一個大規模的數據生成實驗,會怎樣呢?

David George:

你對行業現狀有獨特的見解,你如何描述當前語言模型的狀態呢?我很想談談市場結構,但可以先從你對行業的整體看法開始。

Alexandr Wang:

是的,我認為我們可能正接近語言模型開發的第二階段末期。第一階段是早期幾乎完全的研究階段,標誌性的成果包括最初的 Transformer 論文和對 GPT 的早期小規模實驗,直到 GPT-3 發佈為止。

這是一個專注於小規模實驗和算法進步的階段。然後,第二階段大致從 GPT-3 開始到現在,進入了初始擴展階段。 

GPT-3 表現得相當不錯,接著 OpenAI 及其他公司開始大規模擴展這些模型,像Google、Anthropic、 Meta 和 xAI  等許多公司也加入了這個競賽,將模型的能力提升到極限。

過去兩三年間,幾乎完全是執行層面的工作,涉及如何使大規模訓練順利進行,如何避免代碼中的怪異錯誤,如何設置更大的集群等。

接下來我認為我們將進入一個研究和執行之間更多交替的階段,各實驗室將朝著不同的研究方向發展,並在不同時期取得各自的突破,因此這是一個激動人心的轉折期。

David George:

他們已經達到了一個階段,雖然不能說計算資源是豐富的,但已經足夠支撐模型的發展,基本不再是一個限制。而在數據方面,所有前沿實驗室已經儘可能地挖掘了可用的數據資源。接下來就是在數據方面取得突破,對嗎?

Alexandr Wang:

是的,基本上是這樣。如果你看這三大支柱,計算方面我們顯然會繼續擴大訓練集群的規模,這個方向是比較明確的。算法方面,我認為將會有很多創新。

事實上,很多實驗室現在都在這一領域進行深入的研究。而關於數據,你提到的很對,我們已經用盡了所有容易獲取的公開數據。

David George:

是的,所有人都可以獲得相同的數據。

Alexandr Wang:

沒錯,很多人稱之為「數據牆」,我們已經利用了所有公開的數據資源。而下一階段的標誌之一將是數據生產。

每個實驗室將如何生成所需的數據以實現更高的智能水平,這將是一個關鍵問題,我們如何朝著數據豐富邁進?這將需要多個領域的前沿研究。

我認為,首先是推動數據複雜性的提升,邁向前沿數據。我們希望在模型中構建的許多能力,其最大的障礙其實是數據的缺乏。

比如說,過去兩年內, Agent 一直是一個熱門話題,但實際上幾乎沒有 Agent 能很好地運作。原因是網絡上根本沒有大量有價值的 Agent 數據。這些數據不在那裡,所以我們需要生產高質量的 Agent 數據。

David George:

能舉個例子,說明我們需要生產什麼樣的數據嗎?

Alexandr Wang:

我們即將發佈的一項研究表明,目前所有前沿模型在工具組合上的表現都很差。比如它們需要先查找信息,然後編寫一個 Python 腳本,再繪製圖表,使用多個工具串聯起來解決問題時,模型表現得非常糟糕。而這對人類來說是非常自然的。

David George:

是的,但這些操作沒有被記錄下來,是這個意思嗎?也就是說,模型無法學習到這些步驟。

Alexandr Wang:

完全正確。這些推理鏈條在人類解決複雜問題時非常常見,我們會自然地使用一系列工具,思考問題並推理下一步需要做什麼。如果遇到錯誤,我們會回過頭重新考慮。很多這樣的智能鏈條數據今天根本不存在。這是一個需要生成的數據例子。

退一步講,首先需要在數據上取得的進展是增加數據的複雜性,朝前沿數據邁進。其次是增加數據的生產量,捕捉更多人類在實際工作中的行為。

David George:

更多捕捉人類在工作中的實際操作?

Alexandr Wang:

是的,捕捉更多人類的操作行為,同時投資於合成數據或混合數據。利用合成數據,同時讓人類參與其中,從而生成更高質量的數據。我們需要像對待芯片生產一樣看待數據生產。

就像我們討論芯片生產的邊界,確保有足夠的生產能力來製造芯片。對於數據也是一樣的,我們需要有效的數據生產邊界,能夠生成海量數據來支持模型訓練。

最後一個經常被忽視的方面是對模型的測量,確保我們能夠科學地分析模型的不足之處,從而精確確定需要添加哪種數據來提高模型的性能。

David George:

大科技公司相對於獨立實驗室,在數據資源上有多大的優勢呢?

Alexandr Wang:

大公司在利用現有數據資源時面臨很多監管問題。你可以看到,在生成式 AI 之前, Meta 曾利用所有公開的Instagram照片及其標籤來訓練非常優秀的圖像識別算法,但這在歐洲遇到了許多監管問題,最終變得非常麻煩。

所以如何處理這些數據優勢從監管角度來看,特別是在歐洲,還需要進一步觀察。我認為大實驗室的真正優勢在於它們有非常盈利的業務,能夠為 AI 項目提供幾乎無限的資金來源。對此,我非常關注,也很好奇它將如何發展。

David George:

行業中有一個問題是,是否大公司在 AI 領域投入過多。如果你聽他們的財報電話會議,他們會說,我們的風險在於投入不足,而不是投入過多。對此你怎麼看?

Alexandr Wang:

是的,沒錯。你可以想像一下,站在這些 CEO 的角度,比如 Sundar Pichai 、Mark Zuckerberg,或者 Satya Nadella 的位置上。正如你所說,如果他們真正抓住了 AI 的機會,他們可能很容易地為公司增加一萬億美元的市值。

如果他們真的領先競爭對手,並以好的方式將 AI 產品化,這幾乎是顯而易見的。而如果他們沒有投入額外的 200~300 億美元的資本支出,卻因此錯失了這個機會,後果可能是存在性風險。

Alexandr Wang:

對於這些大公司來說,每家企業的業務都有可能被 AI 技術深度顛覆。所以對他們來說,風險和回報非常清晰。更戰術層面上,他們也能夠輕鬆收回資本支出。最壞的情況下,他們可以通過使核心業務更高效來實現這一點。

David George:

比如說,Facebook 廣告中的 GPU 利用率?

Alexandr Wang:

是的,比如 Facebook 或 Google,他們的廣告系統只要稍微改進一點,就可以回收數十億美元的成本。

David George:

通過更好的性能?

Alexandr Wang:

是的,蘋果也可以通過推動一個設備升級週期輕鬆回收投資。我認為這些都相當清晰。

David George:

從整個行業來看,這些公司投入大量資本對行業是有益的,尤其是像 Google 和微軟這樣的公司,它們還在出租計算資源。

Alexandr Wang:

而且,這些模型已經在逐漸普及。比如 Llama 3.1 已經是開源的。所有這些投資的成果正在變得越來越廣泛可用。開源模型所產生的溢出效應實在是令人難以置信。

David George:

這是一個很好的過渡,談到市場結構,你怎麼看待未來幾年的發展?會不會是幾個已經確定的玩家彼此競爭?你覺得這是個盈利的業務嗎?開源對業務質量的影響是什麼?請你展望一下未來幾年的市場情況。

Alexandr Wang:

是的,過去的一年半里,模型推理的定價已經急劇下降,下降了兩個數量級。令人驚訝的是,智能可能成為一種商品。我認為,純粹依靠模型租賃業務在長期可能並不是最優的商業模式,這可能只是一個相對平庸的業務。

David George:

這或許取決於早期提到的突破點。如果有人真的取得了持久的突破,市場結構可能會有所不同。

Alexandr Wang:

有兩件事。第一,如果 Meta 繼續開源模型,那麼模型的價值上限會被大大壓低。第二,如果幾家實驗室能夠達到類似的性能,這也會顯著改變定價策略。所以我認為,雖然不確定,但純粹的模型租賃業務可能不是最有價值的業務,更優質的業務機會在模型的上層和下層。

下層,比如 Nvidia 顯然是一個非常出色的業務,雲服務提供商也擁有很好的業務,因為搭建大規模的 GPU 集群實際上是相當複雜的,雲提供商在租賃這些資源時擁有不錯的利潤率。

David George:

傳統的數據中心業務本質上也是規模遊戲。因此,相比於較小的玩家,他們得到了極大的好處。

Alexandr Wang:

是的,正是如此。所以在模型層之下有很好的業務機會。在模型之上,如果你在構建應用程序,比如 ChatGPT 就是一個很好的業務,許多初創公司開發的應用程序也表現得不錯。

雖然沒有哪家公司的規模能與 ChatGPT 相比,但如果這些應用能夠在早期找到產品市場契合點,它們就能成為很好的業務。因為如果用戶體驗做得好,應用程序為客戶創造的價值遠遠超過了模型的推理成本。

還有一些有趣的事情,比如 Anthropic 在 Claude 中引入的功能是一個信號,表明各大實驗室都在深入推動產品集成,以提升業務質量。我認為未來我們將在產品層面看到大量迭代。

簡單的聊天機器人絕不是最終產品,那將是一個令人失望的結果。所以產品的創新週期是難以預測的,正如我們沒想到 ChatGPT 會如此受歡迎。

我認為沒人能確切預測下一個增長點在哪個產品上,但可以肯定的是, OpenAI 和Anthropic有能力打造偉大的應用程序業務,實現長期獨立和可持續發展。

David George:

那麼競爭優勢的推動力是什麼?顯然你需要模型,與之緊密集成的產品,以及從此衍生出的傳統護城河,比如工作流程、集成等。

Alexandr Wang:

是的,你可以看到, OpenAI 和 Anthropic 幾乎在同一時間都聘請了首席產品官,他們正在逐步摸索。我認為這表明了他們開始意識到,純粹的技術驅動不再足夠,需要深入的產品集成才能實現長期的商業成功。

David George:

你有一個有趣的應用程序業務,也有一些非常有意思的客戶。你從企業客戶那裡聽到的關於他們實際如何應用這些技術的反饋是什麼?

Alexandr Wang:

我認為我們已經看到了企業的巨大興奮度。許多企業都意識到,「我們必須開始行動了,我們必須搶佔先機,開始嘗試 AI 。」 這讓他們進入了快速的 POC(概念驗證)週期,他們會想著,「好吧,看看我們有哪些可以迅速實施的低垂果實般的想法。」

David George:

搞一些 AI 項目。

Alexandr Wang:

於是他們嘗試了所有這些想法。有些很好,有些不好。但無論如何,這種熱潮確實存在。不過,實際推向生產環境的 POC 項目遠遠少於行業的預期。

我認為現在許多企業看到,原本他們擔心的「末日」並沒有發生—— AI 並沒有完全改造和顛覆各大主要行業,它並沒有徹底改變所有的遊戲規則。

David George:

更多是一些邊緣性改進,比如提高效率、支持性的任務,還有一些創意類任務之類的。

Alexandr Wang:

對,沒錯。總體來說影響比較輕微。我們思考的一個重要問題是:AI 的改進或變革能否真正顯著提升這些公司的股價?這也是我們鼓勵所有客戶重點考慮的,因為從潛力上來看,幾乎每個企業都具備在某種程度上實施 AI ,從而顯著提升其股價的潛力。

David George:

大多是通過節省成本和提高效率。

Alexandr Wang:

是的,今天的 AI 大多體現在成本節省方面,但未來也可以極大地改善客戶體驗。我認為在許多需要與客戶大量人工互動的行業,如果能夠實現更多的標準化和自動化,客戶的互動體驗將會顯著改善。最終,這也會轉化為市場份額的提升。

所以這是我們推動客戶努力的方向,我看到我們合作的一些 CEO ,他們都理解這是一個多年的投資週期,可能不會在下個季度見到成效,但如果他們堅持到最後,業務將會有巨大的變革。

我認為那些圍繞小用例和邊緣性應用的熱潮是好事,應該繼續嘗試,但這並不是我們在這裏的終極目標。

David George:

是的,現在的應用層更多像是第一個階段,比如目前的 AI 應用大多是自動化工具,主要是聊天機器人。作為創業投資者,我希望未來會有一個窗口,初創公司可以通過產品創新擊敗現有的行業巨頭。

我的合夥人 Allison Pal 有一句話:「初創公司能否在現有公司找到創新之前,率先實現分銷?」 我認為這是一個機會,但技術現在還太早,不知道你是否同意?

Alexandr Wang:

我同意,現在的技術還為時過早,主要是因為目前大部分的好處來自於成本節省,而這還不足以顛覆已經擁有強大分銷和增長成本優勢的大企業。

David George:

你怎麼看待企業內部的數據?比如你提到JP摩根擁有15PB的數據,但這些數據真的那麼有用嗎?因為目前這些數據似乎並沒有帶來巨大的競爭優勢。你認為這種情況會改變嗎?

Alexandr Wang:

我認為 AI 是第一次有可能改變這一現狀的機會。大數據熱潮歸結於更好的分析,這對業務決策的幫助是邊際的,而不是顛覆性的。

現在我們可以想像,產品運作方式會發生巨大變革。比如,像 JP 摩根這樣的銀行,大部分用戶與銀行的互動是由人驅動的。儘管他們盡力確保高質量的客戶體驗,但人工操作的局限性顯而易見。

然而,企業過去的客戶互動方式和業務運作數據是訓練模型的唯一可用數據,這些數據可以幫助我們做得更好。

David George:

在企業內部有豐富的數據?

Alexandr Wang:

是的,企業內部有大量豐富的數據,但並不是所有數據都與業務轉型相關,只有部分數據非常有價值。不過,企業在利用數據方面確實面臨巨大的挑戰。

數據往往組織混亂,分佈不均,他們支付數千萬甚至上億美元給諮詢公司進行數據遷移,結果往往沒有實質性變化。

因此,問題在於他們能否比初創公司更快地利用和挖掘這些數據,從而創造出截然不同的產品。

David George:

好,轉到公司運營和你如何構建公司這一話題。你曾談到,在2020年和2021年的高速增長期,你犯下了一個關於招聘的錯誤,認為要快速擴張就必須大量招聘人才。我們看到許多投資組合公司也遇到了類似的情況——爭奪人才。你從中學到了哪些教訓?後來你是如何改變招聘策略的?

Alexandr Wang:

過去幾年里,我們基本上保持了員工數量的平穩增長。雖然我們略微擴展了人員規模,但業務本身已經增長了五到六倍。

整個過程的啟示是,看似招聘更多的人就意味著更好的結果、更多的事情能完成,但實際上,如果你擁有一支高效的團隊和高效的組織,想要快速擴充人員規模而不失去高效性和成功文化,幾乎是不可能的。

David George:

是的,減少溝通和協調的開銷確實會提高生產力。

Alexandr Wang:

沒錯,而且我認為這背後還有更深層次的原因。一支高效的團隊就像一件非常精巧的雕塑,它是團隊成員之間複雜互動的產物。如果你貿然添加很多人,即使這些人都很優秀,也會打亂整個團隊的節奏。

無論如何,隨著你增加人員,都會出現「回歸平均」的現象。如果你觀察那些大規模擴展的公司,他們的財務結果很大程度上取決於是否承認這一回歸現象。

例如,大型銷售團隊的擴展過程中,人們通常會承認回歸平均的現象,但通過良好的操作,他們可以保持略高於平均水平。只要能做到這一點,整個財務運作仍然有效。

David George:

銷售和產品之間的區別還是很大的。

Alexandr Wang:

是的,當然不一樣。但我們的觀察是,初創公司之所以有效,是因為它們擁有高度執行力的團隊,而你希望儘可能長時間保持這些團隊的完整性。

我認為初創公司常見的失敗模式是,你的產品或服務成功了,但公司內部的每個人都很年輕和缺乏經驗。

隨著業務的擴展,所有事情都逐漸失控。投資者告訴你應該聘請一些高管,你開始經歷每次都讓人心力交瘁的高管招聘過程。

David George:

如果你運氣好,成功率也只有一半。

Alexandr Wang:

是的,你經過高管招聘,聘請了高管,接著給他們很多自由空間。高管們會說:「我們需要建立一支龐大的團隊來實現我們的目標。」 你想:「好吧,我也很有經驗,你看起來也很有經驗,那就按你說的來吧。」 然後你允許這些大團隊建立起來,最終的結果幾乎總是破壞性的。

我不是說不能從外部聘請高管,但當你這樣做時,你必須確保這些高管真正融入公司的運作,理解公司的節奏和工作方式。

在他們提出任何重大建議之前,他們應該先瞭解為什麼公司目前的運作是成功的,然後逐步提出建設性的建議。你需要一步一步地信任並驗證這些小的改變,最終他們可能會提出更大的建議,但那時他們已經有了一系列成功的小步調整的記錄。

David George:

這很有趣,而且非常具體。當你聘請一個高級高管時,從小做起有些反直覺,因為大多數高管都不喜歡這樣做。

Alexandr Wang:

是的,我注意到有種「高管幻想」,特別是在年輕創始人領導的矽谷公司中常見。很多高管會認為:「我來這裏是為了修復這家公司,我要把這裏變成一家專業化運作的企業。」 

但實際上,你在招聘的是團隊成員,不是什麼神奇的工具。你希望這個人能長期做出明智的決策,而不是幻想他們會帶來某種神奇的解決方案。

相反,創始人也有一種幻想,認為:「我會雇一群優秀的高管,然後我就可以退後一步,只需要看著事情自然運轉。」 但這同樣不現實。作為創始人,成功的關鍵在於你持續做出一系列正確的決策。如果你脫離了這些決策環節,那幾乎是自毀行為。

David George:

我們經常看到這種模式:創始人僱傭高管,然後退居幕後,結果發現一些重大決策出了問題,意識到:「等一下,這就是我留在這裏的原因。」

Alexandr Wang:

如果你的行業非常穩定,這可能會奏效。

David George:

是的,就像當一家上市公司更換 CEO 時,股價只波動 2%,這表明在穩定行業中,高管確實像一個齒輪。但是在由創始人領導的高增長初創公司中,這種情況完全不同。

Alexandr Wang:

沒錯,很多初創公司和企業的價值在於它們的創新溢價。投資者相信由創始人領導的公司會比市場上的其他公司更具創新能力。所以你的任務就是不斷地超越市場進行創新。

David George:

你必須參與到戰略決策中,完全同意。那我們談談「Mei」吧。你最近推出了這個概念,我看到我的 X 平台上有很多人稱讚你,也有一部分人在批評你。能不能聊聊這個概念,以及你推出它後的觀察?

Alexandr Wang:

是的,Mei 的核心理念是追求卓越與智慧。我們決定,在每個職位上,我們都會僱傭最合適的人,而不考慮他們的背景或其他人口統計信息。

我們不會為了達到某些人口統計目標而進行配額式的優化。但這並不意味著我們不關心多樣性。

實際上,我們非常重視在招聘過程中保持多樣化的候選人來源,但最終我們只會選擇最能勝任的人。這一決定引起了一些爭議,但從本質上講,我認為這是一種顯而易見的社會準則。

David George:

很有常識,感覺這應該是常識吧?

Alexandr Wang:

是的,這似乎是顯而易見的道理。公司應該僱傭最有才華的人。我覺得現在很多問題都圍繞著公司到底有多少社會責任感在做他們的事情。我的觀點是,我所處的行業競爭非常激烈。

Scale 的使命是推動智能技術的發展,這是一個非常重要的技術領域。我們需要非常聰明的人才才能做到這一點,我們需要最優秀的人來實現這些目標。

我認為,大多數在 Scale 的人可能都會認為這在某種程度上是顯而易見的,或者說這並沒有偏離我們在 Scale 工作的本質想法。

但明確將這一點寫入我們的文化非常有價值,因為這意味著即使公司隨著時間的推移而發生變化,這種對卓越人才的追求不會改變。

David George:

這真是太棒了。我想以一個樂觀的問題作為結尾,問一下你對 AGI的看法以及你預計何時能實現?

Alexandr Wang:

是的,我喜歡這樣定義 AGI:大約 80%以上的數字化工作,也就是人類可以完成的純粹依靠計算機的工作, AI 也能獨立完成。

這並不是即將實現的事情,也不在短期內的可見範圍內。我覺得大概 4 年左右的時間可以看到端倪。當然,這還取決於我們之前提到的算法創新週期,如果有突破,可能會更早實現