發力數據標註服務,Uber也想成為AI圈的「賣水人」
要說這一輪AI浪潮中的最大贏家,顯然非英偉達莫屬。自2022年年末OpenAI發佈ChatGPT以來,英偉達的市值就上漲了近5倍,甚至超越蘋果成為了全球最值錢的公司。眼看著英偉達如今能夠讓OpenAI、Meta、xAI等一眾AI廠商排隊交錢,也就使得越來越多的公司想成為此次AI淘金熱中的「賣水人」。

但由於英偉達的GPU以及CUDA生態護城河太深,就連老對手AMD都難以踰越,所以直接搶英偉達的生意無疑難如登天,因此更多的廠商就盯上了AI產業鏈的其他環節。日前以共享出行聞名的Uber方面宣佈,將面向外部開放原僅供內部使用的Scaled Solotions人工數據標註服務。
與此同時有消息源透露,Uber本月在美國、加拿大、印度、波蘭、尼加拉瓜等國與獨立承包商簽約,將通過承包商來為當地提供來自Scaled Solotions的付費人工數據標註任務。顯而易見,Uber方面這是準備作為「總包」,在全球範圍內組織一支數字零工隊伍、來專門從事數據標註。

事實上,數據標註是將各種圖片、文本、影片等數據集打上標籤,是其成為二進製計算機可以理解、識別的工作,此前這個工作在2007年主要是由程序員來負責完成。可是將金貴的程序員用於數據標註無異於暴殄天物,以至於建立在大數據基礎上的深度學習在2007年之前一直都不成氣候。
而數據標註的變革發生在2007年,計算機科學家李飛飛在這一年創建了ImageNet數據集,並通過亞馬遜眾包平台僱傭了167個國家共計5萬人,來給10億張圖片篩選、排序、打標籤。ImageNet的出現也標誌著AI行業轉向了由數據驅動的範式,深度學習也由此成為AI行業的顯學。

ImageNet的成功之處就在於解放了程序員,使得完成了基礎教育的任何人都可以承擔數字標註這個工作。事實上,數據標註並不複雜,比如給定一張圖片,讓你來標出圖片中的行人、車輛、建築等元素,或是給一段語音要求你判斷說話人的語氣,這種工作基本完成了九年義務教育的人都能輕鬆勝任。
也正是因為門檻低,所以從某種意義上來說,數字標註從業者的工作是對著電腦屏幕、根據AI開發者給定的規則為數據打上各式各樣的標註,與流水線上工人幹的活沒什麼區別,屬於非常典型的「賽博搬磚」。儘管「賽博搬磚」看起來與充滿科技感的AI格格不入,但確實很賺錢。

就在今年夏季,專注於為AI廠商提供數據標註服務的Scale AI,完成了由矽谷頂級基金Accel領投的F輪融資,估值達到了138億美元。而這家公司的一長串投資者更是星光熠熠,其中包括英偉達、亞馬遜、Meta、AMD、高通、思科、英特爾。要知道,如今與OpenAI齊名的Anthropic的估值也只有180億美元,所以給AI廠商「打雜」的Scale AI其實要遠比外界想像的更有前景。
數據標註很賺錢的原因也很簡單,因為在現有技術條件下,它不是第二產業、而是第三產業。儘管市面上確實有Doccano、SuperAnnotate等自動化工具,但AI大模型訓練需要的高質量、高精度數據,這些自動化工具有力未逮,所以只能依靠人工。那麼問題就來了,既然Scale AI的珠玉在前,又為何只有Uber跟風,其他互聯網大廠怎麼沒有行動起來呢?

儘管數據標註確實沒有技術門檻,只要想做,從OpenAI到Meta、再到Google,這些大廠建立數據標註業務線可謂是易如反掌。但恰恰是因為數據標註沒什麼門檻,所以屬於勞動密集型產業,真正的難點是數據的獲取以及數據的分發,也就是從哪裡獲得數據,再將數據標註工作分發到合適的人手裡。
作為專注於共享出行和外賣的互聯網大廠,Uber手上掌握的行車數據、地理位置數據都相當有價值,如若不然,自動駕駛公司Aurora Innovation、LBS AR遊戲開發商Niantic也就不會與Uber合作,使用Scaled Solotions的服務了。同時Uber又是一家跨國巨頭,他們早在2015年就已覆蓋58個國家和地區,時至今日更是幾乎遍及全球。

而共享出行、外賣行業的特殊性,也意味著Uber在全球各地都需要借助供應商來獲得司機、騎手資源,在這一過程中,就必然會與各個供應商保持聯繫。因此借助全球各地「地頭蛇」的力量,Uber可以將數據標註做到更高的性價比。
所以在既有資源、又有關係的情況下,Uber的數據標註服務又怎有不成功的道理。
本文來自微信公眾號「三易生活」,作者:三易菌,36氪經授權發佈。