英偉達夢想,富士康模式:Alexander Wang 如何用 24 萬數字遊民打造數據標註王國

Scale AI 遍佈全球的數字軍隊,在流水線上壘起了一座數據工廠。

作者丨劉潔

編輯丨岑峰

這位世界上最年輕的白手起家的億萬富翁,曾在首次登上福布斯排行榜後迅速跌落,但幾年後就重新奪回了這一頭銜。給 Alexander Wang 帶來這個極具傳奇性的名號的,是他的數據工廠—— Scale AI。

最近,Scale AI 實現了將近 10 億美元的年化收入,同比增長了足足 4 倍。

這條消息一出引發眾多關注,Scale AI 到底做了什麼才能賺到這麼多錢?要知道,去年年底 OpenAI 的年化收入也僅有 16 億美元,今年才有望超越 35億美元。

Scale AI 做的事情很簡單,給人工智能模型提供數據標註服務,沒有什麼黑科技但真的很賺錢。

畢竟人工智能模型的三駕馬車算力、數據和算法,只要吃透一塊就能賺得盆滿缽滿,更別說數據領域在此之前可以算得上是一片空白。

被問及他是如何建立起 Scale AI 這個人工智能模型的「數據工廠」時,Alexander Wang 曾很凡爾賽地表示只是某個「夏天隨便玩玩的事」。

早在九年級的時候,Alexander Wang 就對創業充滿熱情,常和朋友一起製定自己的創業計劃。

高中時期,他已經積累了好幾份創業中期企業的工作經歷,因此到了大學,同齡人努力爭取的大廠實習已經無法滿足他自我提升的需求了。

在麻省理工學院學習的一年里,Alexander Wang 沉迷於深度學習和神經網絡,同時修讀了五門研究生難度的計算機課程,並且拿到了滿分 5.0 的績點。

但 Alexander Wang 厭倦了學術,他更想成為這個領域的實踐者。看到科技公司砸下成百上千億美元訓練模型時,Alexander Wang 意識到機會近在咫尺,果斷從麻省理工學院退學,和之前在 Quara 結識的 Lucy Guo 共同創立了 Scale AI。

在當時的人看來,Scale 要做的事情似乎與行業潮流背道而馳,人人都在嘗試用人工智能代替人力,而 Scale 卻要用大量人力去做人工智能做不了的事情。

但這正是 Scale AI 的優勢所在,人工智能公司為模型訓練收集了海量的原始數據,但在這些數據輸入人工智能模型之前,需要用標籤對其進行註釋,大多數公司只能手動完成這項艱巨的任務。Scale AI 給了他們提供了新的選擇。

「我們幫助客戶解鎖這些數據,」Alexander Wang 說,「這讓他們脫離了起跑線。」

Alexander Wang 抓住了自動駕駛興起的機會,幫助自動駕駛汽車用雷達和傳感器生成的三維圖像進行數據標註,標註後的高質量數據能夠讓另一端獲得更好的性能。

短短幾年,Scale AI 就擴張到了令人咋舌的地步。

目前,Scale AI 已經累計收穫了 135 億美元的投資,估值達到 138 億美元。Alexander Wang 也依靠 Scale AI 兩次拿下福布斯排行榜上「最年輕的白手起家的億萬富翁」的稱號,但他的成功也伴隨著爭議。

依靠大量的海外廉價勞動力,Scale AI 才能吃下數據龐大的標註項目,也因此被指責是在剝削和壓榨。聯合創始人 Lucy Guo 的出走更是加劇了外界對 Alexander Wang 行事風格的批評。

1

從天才少年到創業先鋒

Alexander Wang 的成長故事可以說是一出典型的「天才少年」劇本。

他出生在新墨西哥州的一個中國移民家庭,父母都是洛斯阿拉莫斯國家實驗室的物理學家。Alexander Wang 回憶道,還在上幼兒園時,他的父母就開始給他講解高級物理。

在父母的影響下,Alexander Wang 從小就對數學和計算機編程充滿熱情。

十幾歲時,Alexander Wang 已經是各大數學和物理比賽的常客。2013 年,他成功入圍了數學奧林匹克項目,並且 2012 年和 2013 年連續兩年入圍 USACO(美國計算機奧林匹克競賽)決賽。洛斯阿拉莫斯的家中擺滿了他和哥哥們的競賽獎盃。

憑藉比賽中出色的表現,Alexander Wang 高中還未畢業就收到了大量來自矽谷頂尖科技公司的拋出的橄欖枝。

17 歲時,Alexander Wang 離開了高中,前往矽谷工作,後來成為了問答網站 Quora 的一名工程師。在 Quora 的這一年里,他每天投入 12 個小時撲在工作上,並把這份熱情延續到現在。

舊金山開設過一個名為 SPARC(應用理性與認知暑期課程)的夏令營,旨在將有才華的數學和科學學生聚集在一起。就是在那裡,Alexander Wang 注意到了 AI 的開創性潛力,並結識了 OpenAI 聯合創始人 Greg Brockman 和 Anthropic 的首席執行官 Dario Amodei,在他們的鼓勵下主動瞭解了更多與 AI 有關的技術知識。

2015 年,Alexander Wang 去了麻省理工學院學習數學和計算機科學。大一時,他同時兼顧了五門研究生計算機科學課程,還開發了一款名為 Ava 的應用程序,用於幫助用戶預約醫生。

正是在這個階段,他和在線炒房遊戲 Opendoor 的首席執行官 Eric Wu 有過幾次深入對話。Eric Wu 鼓勵他趁著年輕時冒險,告訴他應該嘗試從初創公司開始,而不是在成熟的科技公司工作。

「我知道如果我沒有在最佳時機冒險成為一名企業家,我會後悔的,」Alexander Wang 在博客里寫道,「如果現在不願意邁出這一步,那什麼時候會願意呢?」

Alexander Wang 意識到,機器學習和人工智能術已經進入早期應用,未來必然會掀起一場技術革命。他也敏銳地捕捉到一個市場痛點:人人都需要海量的數據,但人人都不願意花費太多精力在繁瑣的數據處理上。

年僅 19 歲的他在麻省理工學院就讀一年後選擇了退學,和 Lucy Guo 共同創立了 Scale AI,瞄準了 AI 眾多賽道中還未發掘的一片藍海——數據標註。

2

賣鏟人、煉油廠和鎬子

AI 領域有三個公認的基石:數據、算法和算力。

如果說英偉達是算力的賣鏟人,那麼像 Scale AI 這樣的數據標註公司就是數據的賣鏟人。大模型的研發依賴於英偉達提供的算力,人工智能的模型進步則離不開精心標註的高質量數據。有了這份需求,提供專業的數據標註服務的公司也應運而生。

成立之初,Alexander Wang 並不確定 Scale AI 要提供哪一類數據,並做了各種各樣的嘗試,積累一些了失敗的經驗。不過,他很清楚一件事:如何處理數據,才是 Scale AI 業務的關鍵。

過去還有一個說法特別流行,「數據是新的石油。」

但 Alexander Wang 對此有不同看法。他認為石油是一種稀缺的商品,而數據並不是這樣。數據的種類和內容要比石油豐富的多,而數據與數據之間也不是平等的,真正有價值的是在深思熟慮後,被拚接在一起的有用的、不同質量的數據。

這種洞見,成了 Scale AI 的核心理念。

在人工智能的研究中,算法和代碼幾乎可以說是通用的。比如利用一個程序來檢測面部表情,在檢測不同表情的過程中,算法和運行的代碼都是一樣的,只有數據發生了改變。

以 Scale AI 早期的自動駕駛合作為例,算法需要通過大量的案例進行學習,去識別停車點、行人位置、如何避讓單車等。然而,只有對汽車收集到的大量原始數據進行標記,算法才能從數據中學習到「誰是行人,誰是單車」。

這個「數據精煉」的過程,是讓人工智能從「看不懂」到「會判斷」的關鍵一步。

Alexander Wang 說,如果數據是一種新的石油,那 Scale AI 就是一座煉油廠。Scale AI 通過把原始數據轉換成高質量的標註數據,來幫助人工智能公司提升他們的算法。

即使每個人工智能公司都需要數據標註工作,但他們並不一定要自己設立一個專門的團隊來處理這些繁瑣的任務。就像整個行業都把 GPU 和算力外包給了英偉達一樣,很多大公司資金雄厚、人才濟濟,但與其自己從頭研發芯片,不如直接使用英偉達的產品省時省力,成本還更低。

也因此,Scale AI 的業務和人工智能行業緊緊綁在了一起。

Alexander Wwang 說:「我們是生成式人工智能‘淘金熱’中的鎬和鏟子。」當大家都在試圖「挖金子」的時候,Scale AI 另闢蹊徑,在這場「金礦爭奪戰」中佔據了獨特的優勢。

3

Scale AI 的快速崛起

早在創立之前,Scale AI 就已經收穫了資本市場的青睞。

Alexander Wang 曾帶著自己開發的 Ava 參加了由著名風險投資公司 Y Combinator 運營的一項初創企業培訓計劃,也因此結識了當時這項計劃的領導人, OpenAI 的創始人 Sam Altman。

Accel 投資者 Dan Levine 也對 Alexander Wang 的經歷很感興趣,搶在 Y Combinator 之前成為了 Alexander Wang 的合夥人,提供了 450 萬美元的種子資金,還把自己的公寓當作工作室。

2016 年,Alexander Wang  和另一位聯合創始人 Lucy Guo 決定成立 Scale AI,這個只有三人的工作室拿到了 Y Combinator 12 萬美元的天使輪投資,時任 Y Combinator 總裁的 Sam Altman 也因此間接持有了 Scale AI 的股份。

隨後,Scale AI 以每年一輪融資的速度迅速擴展。2017 年的 50 萬美元,2018 年的 800 萬美元,再到 1 億、1.5 億美元,Scale AI 的融資金額飛速增長。到 2020 年,公司估值翻了三番,達到了驚人的 35 億美元。

2021 年,Scale AI 開啟了 E 輪融資,總計融資 3.25 億美元,估值再翻一倍上升至 70 億美元。

今年 5 月,Scale AI 最新一輪的 F 輪投資由 Accel 領投,總計籌集了 10 億美元,Scale AI 的估值也飆升至驚人的 138 億美元。

Scale AI 驚人的擴展速度離不開 Alexander Wang 關於市場的敏銳嗅覺。

Index Ventures 的退休合夥人、Scale AI 董事會成員 Mike Volpi 評價道,「Alexander Wang擁有多種創業和遠見卓識的技能,這些技能融合到一個人身上。」

Scale AI 最早的業務是給特斯拉、Cruise等公司提供訓練自動駕駛汽車機器學習模型所需的標記數據。當自動駕駛熱度逐漸消減時,Alexander Wang 很快就注意到了生成式人工智能的市場。

2019 年,他和 OpenAI 簽署了 Scale AI 的第一份生成式人工智能訂單,為 ChatGPT 早期語言模型標記數據。

2020 年,Alexander Wang 又和美國陸軍簽署了一份價值 3.5 億美元的合約,Scale AI 的估值也隨之升到了 73 億美元。Alexander Wang 持有的 Scale AI 15% 的股份成功把他送上了福布斯榜單,讓年僅 25 歲的他擁有了「最年輕的白手起家的億萬富翁」的名號。

在疫情最嚴重的時期,Scale AI 還成功拿下了 Meta 一份價值約 4000 萬美元的合約,為 Facebook 和 Instagram 上的新購物功能標記數據。然而幾個月後,Meta 取消了這筆交易。

2023 年 1 月,科技行業陷入低迷,Alexander Wang 做出了艱難的決定,裁員 20%。公司估值也在過去一年中暴跌,他的名字從億萬富翁榜單上消失。

福布斯稱,這是一個短暫的任期,「隨著私營科技公司的估值在接下來的一年里暴跌,他迅速從億萬富翁的行列中跌落」。

但 ChatGPT 的火爆帶動了大量資金轉投生成式人工智能,Scale AI 也憑藉這股風潮觸底反彈。

去年,Scale AI 和Google簽訂了一份價值 1.2 億美元的合約,幫助Google開發 Gemini 語言模型,Scale AI 的年收入也從 2.27 億美元飆升至 6.8 億美元。

今年創紀錄的 10 億融資之後,Alexander Wang 以 20 億美元的身價重登福布斯億萬富翁榜單。

Scale AI 的神話引來了不少模仿者,這些競爭對手都在競相竊取 Scale AI 的業務,並按照 Scale AI 的模式給合作方提供相同的方案。與此同時,像 OpenAI 這樣的大客戶也在招募自己的數據標記員,以減少他們對數據標註公司的依賴。

Scale AI 的長期投資者、Thrive Capital 的合夥人 Vince Hankes 對此並不在意,「如果他們想成為一家市值 500 億美元的公司,他們就必須找到另一種方式,為他們的故事書寫新的篇章。」

4

成為數據行業的「富士康」

AI界有一個著名的梗:「有多少人工就有多少智能。」這句話,用來形容 Scale AI 上再合適不過。

Scale AI 通過子公司 Remotasks 僱傭了全球 240,000 名外包工人,並專門在非洲和東南亞建立了數十個培訓中心,專門培訓可用的數據標註員。

憑藉龐大的外包隊伍,Scale AI 成為了數據行業的「富士康」,在數據標註領域佔據了主導地位。

這種依賴外包的策略也給 Alexander Wang 帶來了不少爭議,被指責是在剝削國外的廉價勞動力。海外勞工與美國本土數據標註員的薪資可能相差數倍甚至十倍以上,這種巨大的薪酬差距讓 Scale AI 擁有了競爭對手難以匹敵的利潤空間。

不過,這種指責讓人感覺是來自無能競爭者的嫉妒。競爭對手 Hive 曾效仿 Scale AI 推出 Remotasks 的競品,但後來由於利潤率過低而關閉。

富士康能成為製造業中的巨無霸,除了成本控制,其在製造領域的Knowhow、垂直整合能力都是關鍵。同樣,Scale AI 的成功絕不止是依靠海量廉價勞動力那麼簡單,Alexander Wang 對行業趨勢的敏銳洞察才是制勝法寶。

最初,他抓住自動駕駛熱潮,迅速在這一領域稱霸。然而,隨著人力需求的激增,外包成本也迅速上漲,毛利率一度從 65% 降至 30%。為解決這一問題,Scale AI 果斷建立了自己的外包機構,到第二年,公司利潤率回升至 69%。

當自動駕駛市場開始下滑時,Alexander Wang 又迅速轉戰生成式人工智能,並將客戶群擴展至機器人、計算機視覺和電子商務等新興領域。

憑藉這種出色的商業嗅覺,Scale AI 每次都能早早進入新興市場,牢牢佔據高份額。

一位旗艦客戶直言,Scale AI 提供的全方位服務讓他們只需與一家公司合作,減少了與 15 家供應商打交道的麻煩,而這種橫跨所有功能的服務正是競爭對手無法比擬的。

Scale AI 這種不斷‘重塑’自己的能力,正是 Scale AI 能在激烈競爭中脫穎而出的關鍵,也與Alexander Wang的經歷有關。

Scale AI 最初的名字是Scale API,致力於為訓練數據創建簡單的 API,主要做一些內容審核、資料獲取分類的簡單重覆性任務。隨著業務重心逐漸轉移到人工智能數據標註,2018 年公司正式更名為 Scale AI。

Alexander Wang 選擇數據這個大方向絕非偶然。

還在麻省理工讀書時,Alexander Wang 就發現學校里有大量的可用資源,但沒有標準化的工具和基礎設施。他敏銳地察覺到算法、算力和數據三大版塊中,算法和算力已經被科技巨頭們牢牢盯上,唯有「數據」這一領域還鮮有人問津——這正是他決定踏入的機會之門。

事實證明,Alexander Wang 賭對了。

源源不斷的資金和資源被投入到人工智能行業,最初的 Scale API 也讓他積累了龐大的數據資源和行業知識,再加上前期創業時加入YCombinator得到奧特曼的加持,Alexander Wang憑藉自身強大的執行力,集齊了天時地利人和,帶領 Scale AI 扶搖直上,迅速成為了這一領域的獨角獸。

即使是在看似沒有技術含量的數據標註領域,Alexander Wang 依然設法打造了屬於 Scale AI 的技術壁壘。

Alexander Wang 從亞馬遜的模式中汲取靈感,把數據標註工作也打造成自動化的「流水線」。

依靠前期的「人海戰術」,Scale AI 積累了豐富的人力資源和數據資源,開始訓練自己的人工智能工具來提升效率。充足的海外勞工數量一邊給 Scale AI 提供了海量的訓練數據,一邊又能在反復使用人工智能工具的過程中幫助其進一步優化。

「人類 + 機器」的黃金組合讓 Scale AI 的效率突飛猛進,但 Scale AI 並未止步於此,轉頭迎接了下一個挑戰,將服務範圍擴展到人工智能開發的整個生命週期,服務質量依舊碾壓競爭對手。

Scale AI 曾聲明,自己的數據標記和註釋服務比其他替代方案更快、更便宜、更準確。並且它使用了先進的質量保證流程和反饋循環來確保其數據的一致性和可靠性。

一位客戶在對比後放棄了原本的服務商,選擇了 Scale AI 的服務。「我們更換服務商主要是因為兩件事。其一是貼標的質量。其次是吞吐量……我們還看了其他解決方案的定價。Scale AI 在這個市場上仍然具有相當的競爭力」。

除此之外,嚴格的保密協議也是 Scale AI 的一大優勢,與軍方合作簽訂國防合約,也給 Scale AI 變相打了一份廣告,連軍方都放心的數據標註公司,保密一定沒問題。

5

轉型與數據定製的未來

在一次訪談中,Alexander Wang 直言:「當前製約 AI 發展的瓶頸不是計算,而是數據。」

Scaling Law 也表明,隨著如今模型規模的發展,對數據的需求正在隨指數級增長,簡直是個無底黑洞,但數據總有用完的那一天,互聯網也不再是數據的「金礦」了。

現在高質量數據愈發稀缺。尤其是文本數據能夠非常有效地壓縮信息,而影片數據的壓縮效率則要差得多。預訓練模型所需的原始數據量需要不斷擴展,才能彌補強化學習階段的數據空白。

Scale AI 也因此不滿足於只做個「數據苦力」,通過幾次轉型,從單純的數據處理服務商,邁向了數據管理、分析以及模型搭建的綜合服務商。

Scale AI 還關閉了部分海外承包商機構,降低質量參差不齊的海外勞工數量,積極招攬博士和技術人才,以應對更高層次的數據需求。

未來的數據處理不僅需要自動化工具,還需要大量的人類專家參與。他們不僅可以幫助生成大語言模型更自然、更貼近人類思維的對話,還能夠更加智能地審核生成數據。

在 Alexander Wang 看來,專家們就像「活的 GPU」,他們的智慧和創造力將成為推動 AI 行業發展的重要引擎。這也契合了 Scale AI 的精英主義文化。員工們被要求專注於行業里的大問題,努力把自己的想法轉化成現實,並把它作為自己應該肩負的責任。

在招聘方面,Alexander Wang 追求的是 MEI 原則:優勢、卓越和智慧。他強調,Scale AI 只僱用「最合適的人」,卓越」在 Scale AI 是基本要求,而「聰明」則是首選。

投資者也對 Scale AI 有著超乎尋常的信心。董事會成員 William Hockey 說:「Alexander Wang 的成功並不是因為他是個少年天才,而是因為他有一種其他人都沒有的絕對瘋狂的職業道德。」

至於更遠的未來,Alexander Wang 認為,當今頂尖的模型大多依賴互聯網的公開數據進行訓練,企業的機會在於如何把通用模型與自己的專有數據結合,進行精細微調,最終打造出符合自己業務和客戶需求的「獨門秘籍」。

為此,Scale AI 開發了一個名為 EGP 的平台,讓企業能夠在基礎模型(如 GPT-3.5)上,用自己的專有數據進行微調,打造最適合自身需求的定製化 AI 模型。

Scale AI 未來的願景是創建一個可以處理任何類型數據和任何類型任務的平台。

在 Alexander Wang 眼中,專有和差異化的數據源將成為未來人工智能企業新的護城河,而  Scale AI 則是幫助他們構建數據壁壘的最強後盾。

正如 Alexander Wang 在接受《福布斯》採訪時所說:「我們希望成為人工智能的 AWS。」這不僅僅是一個口號,在他的帶領下,Scale AI 正在逐步成為智能未來的真正領航者。

(AI科技評論長期圍繞AI與機器人領域的前沿研究進行盤點和報導,過去數年,我們接收和報導了上千篇報導,覆蓋全球各大高校與企業的頂級實驗室。歡迎添加微信nabaur進行交流,如果您有優秀的工作想要分享,也歡迎投稿或者聯繫報導。)

參考資料:

https://www.wsj.com/tech/ai/alexandr-wang-scale-ai-d7c6efd7?st=MZa7bM&reflink=desktopwebshare_permalink

https://theweek.com/news/technology/961534/alexandr-wang-profile

https://fortune.com/2024/05/21/scale-ai-funding-valuation-ceo-alexandr-wang-profitability/

https://www.foxbusiness.com/fox-news-tech/scale-ai-ceo-explains-why-his-company-hire-mei-not-dei-merit-excellence-intelligence

https://www.forbesmiddleeast.com/innovation/artificial-intelligence-machine-learning/how-alexandr-wang-turned-an-army-of-clickworkers-into-a-%2473-billion-ai-unicorn