Cohere CEO深度解讀AI產業10大分歧
近日,頭部AI創業公司Cohere的CEO Aidan Gomez在20VC播客節目中,和大家分享了他的真知灼見。
Aidan Gomez是Transformer七子之一,也是其中發量最茂盛的一位。
2019年,Aidan Gomez成立了AI創業公司Cohere,聚焦企業端的大模型服務。短短幾年時間,公司估值突破55億美金,累計融資10億美金。
作為AI一線從業者,Aidan在訪談中深入分享了他觀察到的行業動態,重要性很高,解答了不少大家關心的問題。
原影片鏈接放在文末,歡迎感興趣的朋友去看一遍。我這裏給大家脫脫水,只講乾貨,有一些關鍵內容我會直接援引原文,以便更好的傳達Aidan本意。
(1)AI公司CEO與電子遊戲
訪談一開始,Aidan和主持人Harry Stebbings討論了一個非常有趣的話題:為什麼優秀的科技公司CEO大多是骨灰級遊戲玩家。
Aidan認為,電子遊戲在潛移默化中塑造了玩家的韌性、不斷嘗試的勇氣、以及樂觀主義的心態。
在遊戲中,你知道你可以失敗,然後try again, get better。
這種progress through failure的精神內核,是CEO的必備素養。
電子遊戲,是一種培養resilience的有效途徑。
Aidan坦言,在部分國家的文化中,you only got one shot,不成功便成仁,這種社會文化是對科技創新的天然抑製劑。
(2)Scaling Law是否依然成立?
Aidan給出了非常明確的判斷:Scaling Law依然成立,並將在相當長的時期內保持有效。
Scaling Law的本質在於,為了實現模型智力水平的線性增長,你需要指數級的提升算力投入。
現實問題在於,幾乎沒有企業會真的部署GPT-4模型,因為它太大了,投入產出比很低。
市場需要更小、更高效的模型,而不是單純的scaling up。
(3)如何在AI競賽中脫穎而出?
作為基礎大模型提供商,主要有兩種出路。
一種是堅定scaling up,自建機房,提高算力投入,把模型變得更大。
用Aidan的原話說,Scaling up is the most trustworthy way to improve the model.
但是這條路線需要巨大的財力支持,創業公司本身是玩不轉的。
Google前CEO Eric Schmidt近日爆料OpenAI的星際之門計劃預計耗資3000億美金,這對於創業公司來說顯然是個天文數字。
因此,對於AI創業公司而言,走這條路線的前提是成為科技巨頭的附庸,用獨立性交換入場券。
(4)Plan B:數據創新、算法創新
另一種出路是不完全依賴於scaling up,而是在數據、算法層面進行創新。
首先來看數據創新。
目前開源領域中,絕大部分的成果都來自於數據創新,其中又可以分為兩大流派。
數據創新的第一種方式,是採用更好的爬蟲算法,更準確的parsing網頁,提高訓練集的質量。
Aidan指出,互聯網上充斥著大量重覆、錯誤的髒數據,如何降低它們的權重,提升高質量數據的訓練權重,是提升模型能力的一大關鍵。
數據創新的第二種方式,就是合成數據。這也是Cohere在重點攻克的方向。
然後來看算法創新。
去年底OpenAI爆出Q*的傳聞,本質上是AI的算法創新。
AI算法創新的核心,是圍繞「搜索」展開的。
The key ideas around new RL algorithm is about “Search”.
Aidan認為當前大模型並不具備Solving problems的概念。無論你問一個很簡單的問題(比如1+1=?),還是一個超難的問題(比如市場價格預測),大模型都一視同仁的「秒回」。
這其實是不合理的。我們需要讓大模型學會「慢思考」,要讓大模型學會從錯誤中成長。
這些都涉及RL算法層面的創新,這方面的潛在提升空間巨大。
(5)推理能力不足,源於訓練數據匱乏
Aidan認為,目前大模型的推理能力依然不足,這背後的主要原因是訓練數據匱乏。
在我看來,這是一個非常重要的觀點,我把原文中涉及的兩句話貼出來:
There’s not much training data that demonstrates reasoning on the internet. Internet is just the output of reasoning process.
互聯網雖然數據體量龐大,但絕大部分都是人類的推理結果,並非推理過程。
人類並不習慣於把思考問題的每一個步驟清晰的寫出來,而是習慣於預設結論,你說你的我說我的。
推理過程數據的嚴重缺乏,極大程度限制了大模型的推理能力,因此包括Cohere在內的AI公司都在積極自建推理訓練數據集。
(6)如何看待合成數據的發展?
當前大模型API市場基本被合成數據壟斷了。
People are creating data from these big expensive models to fine-tune smaller models that are more efficient.
Aidan認為這算是一種另類的「模型蒸餾」方法,就是有點貓鼠遊戲的感覺。
(7)大模型廠商都在降價,未來會捲到免費嗎?
Aidan認為未來只賣大模型 API,生意將會很難做,它最終會成為一個zero-margin business。
原因很簡單,人們只關心性能最強大的模型。There’s no market for last year’s model.
要獲得長期發展,就需要在AI應用層做文章。
Aidan坦言,Ilya離開之後的new OpenAI更像是一家AI應用公司,而不再是一家以追求AGI為核心目標的公司了。
從商業角度來看,這種轉變是完全正確的,單純卷模型能力並不是一個好的商業模式。
(8)企業客戶對AI最大的誤解是什麼?
在Aidan看來,企業客戶對AI最大的擔憂是幻覺現象,但他認為這種擔憂有點過度了。
首先,現在的大模型確實存在幻覺現象,但隨著大模型能力的提升,hallucination rate已經顯著下降。
其次,通過RAG,我們能夠在大模型的回答輸出中加上reference,進一步降低幻覺導致的問題。
最重要的是:We exist in a world with humans and humans hallucinate constantly.
AI存在幻覺現象,絕不是我們通盤否定AI的理由,因為我們人類幾乎每時每刻都在產生幻覺。
(9)確定性的AI機遇:短期看語音,長期看機器人
短期來看,AI最確定性的機會,是基於語音的交互重構。
Aidan推薦還沒有嘗試過和AI語音交流的朋友,抓緊去體驗一下。
當你聽到大模型那富含情感的語氣、吐字間的呼吸、咂嘴等小動作時,你會震撼於語音大模型帶來的用戶體驗。
長期來看,通用機器人是下一個具有較大確定性的領域。
因為大模型的出現解決了機器人領域中最棘手的問題,即reasoner和planner。
In 5-10 years, we will have general purpose humanoid robotics that are cheap and robust.
(10)未來芯片領域還會是英偉達一家獨大嗎?
目前芯片領域是整個AI產業margin最高的環節,幾乎被英偉達一家壟斷。
Cohere為了滿足企業客戶的需求,在不同芯片架構上進行大模型訓練,因此Aidan在這個問題上擁有絕對的發言權。
芯片需求可以進一步分為推理側和訓練側。
目前推理側的芯片供給已經趨向於完全競爭。
相比推理側而言,訓練側對芯片的性能要求更高,目前集中度很高,主要有英偉達和Google的TPU。
Aidan認為,這個格局很快會發生改變。
AMD, AWS Trainium are going to be ready for prime time.
It’s going to change faster than most people think.
原影片標題:Aidan Gomez: What No One Understands About Foundation Models
本文來自微信公眾號「Alpha Engineer」,作者:費斌傑,36氪經授權發佈。