Cohere CEO深度解讀AI產業10大分歧

近日,頭部AI創業公司Cohere的CEO Aidan Gomez在20VC播客節目中,和大家分享了他的真知灼見。

Aidan Gomez是Transformer七子之一,也是其中發量最茂盛的一位。

2019年,Aidan Gomez成立了AI創業公司Cohere,聚焦企業端的大模型服務。短短幾年時間,公司估值突破55億美金,累計融資10億美金。

作為AI一線從業者,Aidan在訪談中深入分享了他觀察到的行業動態,重要性很高,解答了不少大家關心的問題。

原影片鏈接放在文末,歡迎感興趣的朋友去看一遍。我這裏給大家脫脫水,只講乾貨,有一些關鍵內容我會直接援引原文,以便更好的傳達Aidan本意。

(1)AI公司CEO與電子遊戲

訪談一開始,Aidan和主持人Harry Stebbings討論了一個非常有趣的話題:為什麼優秀的科技公司CEO大多是骨灰級遊戲玩家。

Aidan認為,電子遊戲在潛移默化中塑造了玩家的韌性、不斷嘗試的勇氣、以及樂觀主義的心態。

在遊戲中,你知道你可以失敗,然後try again, get better。

這種progress through failure的精神內核,是CEO的必備素養。

電子遊戲,是一種培養resilience的有效途徑。

Aidan坦言,在部分國家的文化中,you only got one shot,不成功便成仁,這種社會文化是對科技創新的天然抑製劑。

(2)Scaling Law是否依然成立?

Aidan給出了非常明確的判斷:Scaling Law依然成立,並將在相當長的時期內保持有效。

Scaling Law的本質在於,為了實現模型智力水平的線性增長,你需要指數級的提升算力投入。

現實問題在於,幾乎沒有企業會真的部署GPT-4模型,因為它太大了,投入產出比很低。

市場需要更小、更高效的模型,而不是單純的scaling up。

(3)如何在AI競賽中脫穎而出?

作為基礎大模型提供商,主要有兩種出路。

一種是堅定scaling up,自建機房,提高算力投入,把模型變得更大。

用Aidan的原話說,Scaling up is the most trustworthy way to improve the model.

但是這條路線需要巨大的財力支持,創業公司本身是玩不轉的。

Google前CEO Eric Schmidt近日爆料OpenAI的星際之門計劃預計耗資3000億美金,這對於創業公司來說顯然是個天文數字。

因此,對於AI創業公司而言,走這條路線的前提是成為科技巨頭的附庸,用獨立性交換入場券。

(4)Plan B:數據創新、算法創新

另一種出路是不完全依賴於scaling up,而是在數據、算法層面進行創新。

首先來看數據創新。

目前開源領域中,絕大部分的成果都來自於數據創新,其中又可以分為兩大流派。

數據創新的第一種方式,是採用更好的爬蟲算法,更準確的parsing網頁,提高訓練集的質量。

Aidan指出,互聯網上充斥著大量重覆、錯誤的髒數據,如何降低它們的權重,提升高質量數據的訓練權重,是提升模型能力的一大關鍵。

數據創新的第二種方式,就是合成數據。這也是Cohere在重點攻克的方向。

然後來看算法創新。

去年底OpenAI爆出Q*的傳聞,本質上是AI的算法創新。

AI算法創新的核心,是圍繞「搜索」展開的。

The key ideas around new RL algorithm is about “Search”.

Aidan認為當前大模型並不具備Solving problems的概念。無論你問一個很簡單的問題(比如1+1=?),還是一個超難的問題(比如市場價格預測),大模型都一視同仁的「秒回」。

這其實是不合理的。我們需要讓大模型學會「慢思考」,要讓大模型學會從錯誤中成長。

這些都涉及RL算法層面的創新,這方面的潛在提升空間巨大。

(5)推理能力不足,源於訓練數據匱乏

Aidan認為,目前大模型的推理能力依然不足,這背後的主要原因是訓練數據匱乏。

在我看來,這是一個非常重要的觀點,我把原文中涉及的兩句話貼出來:

There’s not much training data that demonstrates reasoning on the internet. Internet is just the output of reasoning process.

互聯網雖然數據體量龐大,但絕大部分都是人類的推理結果,並非推理過程。

人類並不習慣於把思考問題的每一個步驟清晰的寫出來,而是習慣於預設結論,你說你的我說我的。

推理過程數據的嚴重缺乏,極大程度限制了大模型的推理能力,因此包括Cohere在內的AI公司都在積極自建推理訓練數據集。

(6)如何看待合成數據的發展?

當前大模型API市場基本被合成數據壟斷了。

People are creating data from these big expensive models to fine-tune smaller models that are more efficient.

Aidan認為這算是一種另類的「模型蒸餾」方法,就是有點貓鼠遊戲的感覺。

(7)大模型廠商都在降價,未來會捲到免費嗎?

Aidan認為未來只賣大模型 API,生意將會很難做,它最終會成為一個zero-margin business。

原因很簡單,人們只關心性能最強大的模型。There’s no market for last year’s model.

要獲得長期發展,就需要在AI應用層做文章。

Aidan坦言,Ilya離開之後的new OpenAI更像是一家AI應用公司,而不再是一家以追求AGI為核心目標的公司了。

從商業角度來看,這種轉變是完全正確的,單純卷模型能力並不是一個好的商業模式。

(8)企業客戶對AI最大的誤解是什麼?

在Aidan看來,企業客戶對AI最大的擔憂是幻覺現象,但他認為這種擔憂有點過度了。

首先,現在的大模型確實存在幻覺現象,但隨著大模型能力的提升,hallucination rate已經顯著下降。

其次,通過RAG,我們能夠在大模型的回答輸出中加上reference,進一步降低幻覺導致的問題。

最重要的是:We exist in a world with humans and humans hallucinate constantly.

AI存在幻覺現象,絕不是我們通盤否定AI的理由,因為我們人類幾乎每時每刻都在產生幻覺。

(9)確定性的AI機遇:短期看語音,長期看機器人

短期來看,AI最確定性的機會,是基於語音的交互重構。

Aidan推薦還沒有嘗試過和AI語音交流的朋友,抓緊去體驗一下。

當你聽到大模型那富含情感的語氣、吐字間的呼吸、咂嘴等小動作時,你會震撼於語音大模型帶來的用戶體驗。

長期來看,通用機器人是下一個具有較大確定性的領域。

因為大模型的出現解決了機器人領域中最棘手的問題,即reasoner和planner。

In 5-10 years, we will have general purpose humanoid robotics that are cheap and robust.

(10)未來芯片領域還會是英偉達一家獨大嗎?

目前芯片領域是整個AI產業margin最高的環節,幾乎被英偉達一家壟斷。

Cohere為了滿足企業客戶的需求,在不同芯片架構上進行大模型訓練,因此Aidan在這個問題上擁有絕對的發言權。

芯片需求可以進一步分為推理側和訓練側。

目前推理側的芯片供給已經趨向於完全競爭。

相比推理側而言,訓練側對芯片的性能要求更高,目前集中度很高,主要有英偉達和Google的TPU。

Aidan認為,這個格局很快會發生改變。

AMD, AWS Trainium are going to be ready for prime time.

It’s going to change faster than most people think.

原影片標題:Aidan Gomez: What No One Understands About Foundation Models

本文來自微信公眾號「Alpha Engineer」,作者:費斌傑,36氪經授權發佈。