深度|OpenAI o1 模型研究團隊對話紅杉美國合夥人:​o1 系列迄今未被充分開發的維度,天花板比許多人想像的要高得多

幸運的是,作為 OpenAI o1 模型研究團隊三位核心技術人員 Noam Brown(OpenAI 研究科學家,專注於 AI 推理和強化學習)、Hunter Lightman(OpenAI 高級工程師,主要研究 AI 在複雜問題上的推理能力)以及 Ilge Akkaya(OpenAI 研究員,特別關注 AI 在數學和邏輯推理方面的應用)也在近日與紅杉美國合夥人 Sonya Huang 以及 Pat Grady 展開了一場對談。

Noam Brown 強調,o1 模型的一個核心突破在於延長推理時間帶來的能力提升。通過增加推理時間,模型在解決複雜問題時表現出了自發的回溯和自我修正能力,這使得它在像數獨和複雜邏輯等問題上表現尤為出色。通過這種「延時推理」,o1 能更有效地應對高難度任務。

Hunter Lightman 認為,o1 模型不僅通過推理時間擴展了 AI 的能力,還為未來AI的發展開闢了新的方向。與之前依賴數據和計算能力擴展的AI模型相比,o1 的推理時間擴展代表了一種全新的維度。這種方式有望在未來的模型版本(如 o2 和 o3 )中進一步擴展 AI 能力。

Noam Brown 和 Hunter Lightman 承認,儘管 o1 在推理任務中表現出色,但它並非在所有任務上都優於其他 AI 模型。尤其在非 STEM 領域,模型的表現還有很大的改進空間。

以下為這次對話的主要內容,enjoy~

Sonya Huang:

o1 是 OpenAI 首次在推理時間計算上的重大嘗試。我們很期待和團隊討論推理、思維鏈、推理時間縮放定律等話題。

Ilge、Hunter、 Noam ,感謝你們的到來,並祝賀你們將 o1 推向公眾。我想先問一下,你們從一開始就確信這個項目會成功嗎?

Noam Brown:

我認為我們從一開始就相信這一方向有潛力,但實際走到今天的路徑並不清晰。你看看 o1 ,這並不是一夜之間的成果。實際上,這背後有多年研究,而其中很多研究並沒有取得成效。

我認為 OpenAI 的領導層一直堅信這一方向必須有結果,並願意在早期遇到挫折的情況下繼續投資,這最終得到了回報。

Hunter Lightman:

我一開始沒有像 Noam 那樣有強烈的信心。我已經花了很長時間研究語言模型,試圖讓它們學會做數學和其他推理任務。研究的過程總是有起有落,有時有效果,有時沒有。

但當我們發現這一方向開始奏效時,我經歷了一個「啊哈」的時刻,那時我讀了一些模型生成的輸出,它們以不同的方式處理問題解決。這就是我信心確立的時刻。

我認為 OpenAI 整體上採取了一種非常實證、數據驅動的方式,當數據開始向你展示趨勢並且變得有意義時,我們就會追隨這些線索。而這也是我信心確立的時刻。

Sonya Huang:

Ilge,你已經在 OpenAI 工作了很長時間,五年半了。你怎麼看?你從一開始就相信這個方法會成功嗎?

Ilge Akkaya:

不,我加入後曾幾次判斷錯誤。我一開始以為機器人技術是通向 AGI 的道路,所以我最初加入了機器人團隊,認為 AGI 會出現在具身智能中。然而,事情並沒有按預期發展。

在我工作的這段時間, Chat GPT  的出現無疑是個範式轉變。我們能夠向全世界展示一個通用接口,我很高興我們現在有了一條可能的新的前進路徑來推動這一推理範式。但對我來說,長時間里,這條路徑並不明顯。

Pat Grady:

我知道你們出於很好的理由,不能公開過多的細節,但你們能否大致介紹一下它的工作原理?

Ilge Akkaya:

o1 模型系列使用了強化學習,能夠進行推理,或者你也可以稱之為「思考」。它與我們過去使用的大型語言模型有本質上的不同。

我們已經看到它在很多不同的推理領域中都表現出良好的泛化能力,我們也在最近展示了這一點。所以我們對這個新模型家族帶來的範式轉變感到非常興奮。

Pat Grady:

對於那些不太熟悉當前語言模型技術的人來說,什麼是推理?你能否簡要定義一下推理,並解釋為什麼它很重要?

Noam Brown:

一個簡單的理解是,推理是針對那些思考更長時間有明顯好處的問題的能力。你知道,人類有經典的系統 1 和系統 2思維。

系統 1 是自動化的、直覺式的反應,系統 2 則是較慢的、更有流程驅動的反應。對於某些任務,延長思考時間並不會帶來更多好處。

比如,如果我問你「不丹的首都是哪裡?」,你可以花兩年的時間思考,但這不會提高你的正確率。順便說一句,不丹的首都是什麼?其實我也不知道。不過,確實有一些問題,通過延長思考時間可以帶來更高的準確性。

一個經典的例子是數獨,你可以理論上嘗試各種解法,並且正確解法非常容易識別。因此,只要有足夠的時間,你最終會找到正確答案。

很多 AI 領域的研究者對推理有不同的定義,我不主張這是唯一的定義。每個人都有自己的看法,但我認為推理是那些通過考慮更多選項和思考更長時間可以獲益的問題。

你可以把它理解為一個生成-驗證的差距問題:生成一個正確的解法很難,但識別正確解法卻相對簡單。

我認為所有問題都在這個光譜上,比如數獨這種驗證比生成容易的問題,以及驗證和生成同樣困難的問題,比如不丹的首都叫什麼。

Sonya Huang:

我想問一下關於 AlphaGo 和 Noam 的背景,你以前在撲克和其他遊戲方面的研究有多大程度與 o1 的工作相關?它們之間有哪些相似和不同之處?

Noam Brown:

我認為 o1 的一大亮點是它確實在思考時間增加的情況下表現更好。如果回顧過去的許多 AI 突破, AlphaGo 是一個經典的例子。

它的一個顯著特點是會花很長時間在每步行動前思考,可能需要 30 秒來決定下一步。如果讓它瞬間做出決策,它其實比不上頂級的人類選手。因此,它的表現很大程度上依賴於這些額外的思考時間。

問題在於,這種額外的思考時間是依靠蒙地卡羅樹搜索(MCTS)進行的,這是一種特定的推理方法,適用於圍棋,但在我早期研究的撲克遊戲中卻行不通。因此,儘管神經網絡部分(系統 1 的部分)是通用的,但當時存在的推理方法仍然是特定領域的。

o1 的另一大亮點是它的推理方式非常通用,適用於許多不同的領域。我們已經看到了用戶使用它的各種方式,也驗證了這一點。

Hunter Lightman:

語言模型一直吸引我的地方是,它們的接口非常通用,可以適應各種問題。這次我們感到興奮的是,我們認為我們有一種方法,可以在這種通用接口上做強化學習,並期待看到未來的可能性。

Pat Grady:

你提到生成和驗證之間的差距,這在不同問題上有所不同。那麼在推理過程中,這種差距的處理方法是否是一致的,或者在不同的情況下有不同的方法?

Hunter Lightman:

這次發佈讓我興奮的地方之一是, o1 能夠交到那麼多人手裡,我們可以看到它在哪些問題上表現好,哪些問題上表現差。這是 OpenAI 的核心戰略之一,我們通過迭代式的技術部署,觀察世界如何與它互動,並不斷改進我們的研究。

Pat Grady:

在Twitter上,有什麼用戶使用 o1 的方式讓你感到意外嗎?

Ilge Akkaya:

讓我非常興奮的一件事是,我看到很多醫生和研究人員把這個模型當作頭腦風暴的合作夥伴。他們在癌症研究領域工作多年,正在與模型討論一些關於基因發現和基因療法的想法。

雖然模型無法自行進行研究,但它可以成為人類的良好協作夥伴,幫助推動科學研究的進步。

Sonya Huang:

Noam ,我記得你曾發推說,深度強化學習(Deep RL)已經走出了「幻滅低谷」。你能詳細解釋一下你的意思嗎?

Noam Brown:

我覺得這一切可以追溯到 Atari 遊戲,DeepMind 在 Atari 上的深度強化學習( DRL )結果曾經非常熱門。我當時正在攻讀博士學位,大約在2015到2019年之間, DRL 無疑是最熱門的研究領域。

在某些方面,確實取得了大量研究成果,但也忽略了一些問題。其中一個被忽視的方面就是利用海量數據進行訓練的力量,比如 GPT 的訓練方式。在某種程度上,這非常令人驚訝。

看看 AlphaGo ,它無疑是深度強化學習領域的重大成就之一。儘管其中有RL(強化學習)步驟,但更重要的是, AlphaGo 在這之前還進行了基於人類數據的學習,這才是讓 AlphaGo 真正起飛的原因。

然後,研究界逐漸出現了一種觀點,認為不依賴人類數據、從零開始學習才是「純正」的方向。

這也導致了 AlphaZero 的出現,儘管它的表現比 AlphaGo 更好,但這個過程的轉變忽視了像 GPT 這樣的大規模數據訓練的潛力,除了 OpenAI 之外,很少有人關注這個方向。

OpenAI 在初期看到了這個方向的一些初步成果,並有決心加倍投入。所以, DRL 確實經歷了一段高峰期,隨後隨著  GPT-3 等大模型的成功, DRL 的熱度有所下降,許多人對它失去了信心。不過,隨著 o1 的出現,我們看到了 DRL 在與其他元素結合時仍然具有強大的潛力。

Sonya Huang:

我認為很多 DRL 的成果是在相對明確的設定下產生的。遊戲中的 o1 是首次在更廣泛的、無界環境中使用 DRL 的案例之一嗎?這樣理解對嗎?

Noam Brown:

是的,我覺得這是一個很好的觀點。許多 DRL 的亮點成果確實非常酷,但它們的適用範圍也非常狹窄。雖然我們確實看到了一些相當有用且通用的 DRL 成果,但沒有什麼可以與  GPT-4 的影響力相比。因此,我認為在新的範式下, DRL 未來將達到類似的影響力水平。

Sonya Huang:

我還記得 AlphaGo 的比賽結果,尤其是在一些錦標賽中的第 37 手,那個動作震驚了所有人。

你在 o1 的研究中是否見到過類似的時刻,模型給出了一個讓所有人意外的答案,但實際上是對的,甚至比人類的想法更好?你們是否有過那樣的時刻,還是認為可能要等到 o2 或 o3 ?

Hunter Lightman:

我想起了一個例子,我們在為IOI(國際信息學奧林匹克競賽)做準備時,把模型投入到解決問題的過程中。有一個問題, o1 執意要用一種奇怪的方法去解決,具體細節我不太清楚,我的同事們,他們更擅長競賽編程,試圖弄清楚為什麼模型會這樣做。

我認為這並不是「天才之作」的那種時刻,而是模型不知道正確的解決方法,於是反復嘗試,直到找到另一個解決方案。它確實解決了問題,只是用了一個看起來很奇怪的方法。我記得這是一個有趣的例子,在編程競賽的結果中,模型確實以一種不同於人類的方式思考問題。

Ilge Akkaya:

我看到模型解決了一些幾何問題,它的思考方式讓我感到很驚訝。比如,你讓模型計算一球體上的點,然後詢問某個事件發生的概率,模型會說:「讓我們先來想像這個場景,放置這些點,然後從這個角度思考。」

這種用語言進行可視化的方式真的讓我吃驚,就像我作為人類會做的那樣,而看到 o1 也能做到這一點,真的讓我感到意外。

Sonya Huang:

非常有趣。這不僅是人類可以理解的,還能擴展我們對問題的思考方式,而不僅僅是某種難以理解的機器語言。這真的非常吸引人。

Hunter Lightman:

是的,我確實認為 o1 的結果中最酷的一點是,它的思維鏈是可以被人類解釋的,這使我們能夠理解模型的思維過程。

Pat Grady:

在研究過程中有沒有出現那種「啊哈」的時刻?Hunter,你提到一開始你並不確信這個方向會成功,有沒有某個時刻讓你突然意識到:「天啊,這個方向真的有效!」

Hunter Lightman:

我在 OpenAI 已經工作了大約兩年半的時間,大部分時間都在努力讓模型更好地解決數學問題。我們為此做了很多工作,構建了各種定製系統。

在 o1 的研究過程中,有一次我們訓練了一個新模型,應用了一些修復和修改,結果它在數學評估中的得分比我們之前所有的嘗試都高,甚至超過了我們設計的定製系統。

我們查看了思維鏈的變化,發現它們表現出了不同的特徵。特別是當模型犯錯時,它會說:「等等,這不對,我需要退一步,重新找出正確的方向。」我們稱這種行為為「回退」(backtracking)。

我已經等待很長時間想看到模型能夠回退的例子,當我看到這個得分和思維鏈時,我意識到這真的有潛力,我需要更新我的看法。這就是我信心確立的時刻。

Noam Brown:

我覺得對我來說也是類似的故事。大概是在同一時間,我加入時的想法是,像 Chat GPT  這樣的模型並沒有真正「思考」才作出回應,它的反應非常快速。

而在 AI 領域的遊戲中,能夠花更多時間思考可以獲得更好的結果。所以我一直在思考,如何將這一點引入到語言模型中。

這聽起來簡單,但實際上如何實現是個挑戰。我們討論了很多如何讓模型擁有反思能力,如何在犯錯時回退或嘗試不同的方法。

最終,我們決定嘗試一個基本的方案,就是讓 AI 思考更長時間。結果我們發現,一旦 AI 能有更多的思考時間,它幾乎是自發地發展出這些能力,包括回退和自我修正。

這些都是我們想讓模型實現的,而現在通過這樣一個簡單且可擴展的方式就實現了。

Noam Brown:

這對我來說是一個關鍵時刻,那時我意識到我們可以進一步推動這個方向,而且方向非常明確。

Hunter Lightman:

我一直在理解 Noam 對「推理計算」(conviction compute)的信心有多強大。我記得他剛加入時,我們的很多一對一對話都圍繞著測試時計算的力量展開。

在項目進行的多個階段, Noam 都會說:「為什麼不讓模型思考更長時間?」然後我們就這麼做了,結果模型表現得更好。他看著我們時的表情有點好笑,彷彿在說:「為什麼我們之前沒這麼做?」

Sonya Huang:

我們在你們的郵件中注意到, o1 在 STEM 領域表現得非常好,明顯優於你們之前的模型。對此有沒有一個大致的解釋?為什麼會這樣?

Noam Brown:

我之前提到過,有些任務,比如推理任務,驗證一個答案比生成一個答案要容易。STEM領域的問題往往屬於難以推理的問題類型。所以這就是我們看到 o1 在STEM學科表現更好的一個重要原因。

Sonya Huang:

明白。我想補充一個問題,我們在你們發佈的研究論文中看到, o1 通過了你們的研究工程師面試,而且通過率相當高。對此你怎麼看?這是否意味著未來 OpenAI 會僱傭 o1 來代替人類工程師?

Hunter Lightman:

我認為我們還沒有達到那個水平。我覺得還有更多工作要做。

Sonya Huang:

不過要達到 100% 還是很難的,對吧?

Hunter Lightman:

也許我們需要更好的面試方法。但至少在我看來, o1 已經比之前的模型更像一個編程夥伴。我認為它已經在我們的代碼庫中提交了幾次代碼變更。

從某種意義上講,它確實像一個軟件工程師,因為軟件工程也是一個受益於長時間推理的STEM領域。

我認為當前模型在進行推理時只思考了幾分鐘,但如果我們繼續擴展這個趨勢,讓 o1 思考更長時間,它可能會完成更多類似的任務。

Noam Brown:

你可以知道我們實現了 AGI 的那一天就是當我們下架所有招聘信息,而公司狀況要麼非常好,要麼非常差的時候。

Sonya Huang:

你認為要讓 o1 在人文學科上表現出色需要做些什麼?你認為推理、邏輯和STEM領域的優勢會隨著推理時間的擴展自然延伸到人文學科嗎?還是說會有其他因素?

Noam Brown:

如你所說,我們發佈了模型,也很好奇它擅長什麼、不擅長什麼,用戶會用它來做什麼。我認為模型的原始智能和它在實際任務中的有用性之間仍然存在差距。

在某些方面它非常有用,但在更多方面它可以更有用。我認為我們還有很多迭代的空間,來解鎖這種更廣泛的通用性。

Pat Grady:

那麼我很好奇, OpenAI 內部有沒有關於模型能力與實際應用需求之間差距的哲學?你們是否有一個明確的思考過程來決定哪些工作應該由模型完成,哪些工作應留給圍繞API的生態系統來解決?

Noam Brown:

在我加入之前,我就聽說 OpenAI 非常專注於 AGI ,而我當時對這一點還有些懷疑。基本上,我剛開始工作的第一天,公司召開了一次全員會議,Sam站在大家面前,明確表示 AGI 是我們的首要目標。

因此,最明確的答案就是 AGI 是我們的終極目標,沒有某個單一的應用是我們的優先事項,除了是否能夠使用 AGI 。

Pat Grady:

你們對 AGI 有明確的定義嗎?

Noam Brown:

每個人都有自己的定義,對吧?這也是為什麼這個問題很有趣。

Hunter Lightman:

我不知道我是否有一個明確的定義。我只是覺得這可能與 AI 系統能夠完成的經濟上有價值的工作比例有關。

我認為在未來幾年內,這個比例會迅速上升。我不確定具體會如何發展,但這可能是那種「當你感受到時你就知道」的情況。

我們可能會不斷調整標準,直到有一天我們與這些 AI 同事一起工作,而它們完成了我們現在做的許多工作,而我們則在做不同的工作。整個工作生態系統都會發生變化。

Pat Grady:

你的一位同事曾很好地表達了推理在通往 AGI 的過程中重要性。他的大意是:任何工作都可能遇到障礙,而幫助你克服這些障礙的正是你的推理能力。

我認為這是一個不錯的連接,說明了推理為何重要以及與 AGI 目標的關係。你們認為這是理解推理為何重要的最佳方式嗎?還是有其他的框架可以幫助我們理解推理?

Hunter Lightman:

我認為這是一個有待確認的問題。因為在開發這些 AI 系統和模型的過程中,我們看到了它們的各種表現和不足。

我們在開發、評估這些系統時學到了很多新東西,並試圖瞭解它們的能力。例如,一些想到的事情是戰略規劃、頭腦風暴等。

Pat Grady:

如果要讓 AI 像優秀的產品經理一樣好,它需要大量的創意和對用戶需求的洞察。這算是推理嗎?還是說這是一種與推理不同的創造力,需要以不同的方式處理?

當你開始將這些計劃轉化為行動時,你還需要進行戰略規劃,考慮如何推動組織達成目標,這算是推理嗎?

Hunter Lightman:

也許部分是推理,但也許部分是其他東西。最終,我們可能會覺得這些都是推理,或者我們會發明一個新詞,描述需要採取的新步驟。

Ilge Akkaya:

我不確定我們能將這個推理問題推進到什麼程度。每當我思考這個廣泛的推理問題時,數學領域的例子總是很有幫助。

我們花了很多時間閱讀模型在解數學問題時的思維過程。你能看到,當它遇到障礙時,它會退回去,嘗試另一個方法。

這種思維過程讓我覺得,也許它能推廣到數學之外的領域,這給了我一些希望。雖然我不知道最終答案是什麼,但希望如此吧。

Hunter Lightman:

讓我感到困惑的是, o1 已經在數學上比我更厲害了,但它在軟件工程上卻不如我。所以這裏存在某種不匹配。

Pat Grady:

看來還有很多工作要做。

Hunter Lightman:

是的,還有一些事情要做。如果我的整個工作只是解Amy問題和參加高中數學競賽,我可能早就失業了。但現在我仍然有工作可做。

Pat Grady:

既然你提到了「思維鏈」,即觀察背後的推理過程。我有個問題,也許你們無法回答,但就當是有趣的討論吧。

在你們發佈 o1 的博客中,你們解釋了為什麼要隱藏「思維鏈」,並說部分原因是出於競爭考慮。我好奇,這是否是一個有爭議的決定?因為我可以想像,這種決定很有邏輯,但也可以想像你們可能選擇公開它。能否談談這是一個有爭議的決定嗎?

Noam Brown:

我不認為這是有爭議的。與不分享前沿模型的權重出於類似的原因,分享模型的思維過程也存在很多風險。我認為這是一個類似的決策。

Sonya Huang:

能不能給外行解釋一下,什麼是「思維鏈」?可以舉個例子嗎?

Ilge Akkaya:

例如,如果有人問你解決一個積分問題,大多數人會需要一張紙和一支筆,然後一步步推導出從複雜方程到最終答案的過程。

這個過程可能會得到一個答案,比如1,但如何得出這個答案?這就是數學領域中的「思維鏈」。

Sonya Huang:

讓我們談談未來的路徑,推理時間的擴展定律。在你們發佈的研究中,這是我認為最重要的圖表。這似乎是一個具有深遠意義的結果,類似於預訓練中的擴展定律。你同意這種看法嗎?這對領域的影響會是什麼?

Noam Brown:

我認為它確實具有深遠意義。在我們準備發佈 o1 時,我一直在想人們是否會認識到它的重要性。雖然我們提到了這一點,但這是個比較微妙的點。

我真的很驚訝和感激,看到這麼多人理解了這一點的意義。一直以來,人們對 AI 可能遇到瓶頸或停滯的擔憂很多,尤其是預訓練變得越來越昂貴,還有關於是否有足夠數據的問題。

o1 ,特別是 o1 Preview,傳達的主要信息並不是它今天的能力,而是它對未來的意義。我們能夠在擴展中發現一個迄今未被充分開發的維度,我認為這是一個重大突破,這意味著天花板比許多人想像的要高得多。

Sonya Huang:

如果讓模型思考數小時、數月甚至數年,會發生什麼?

Hunter Lightman:

我們還沒有讓 o1 運行那麼久,所以還不知道。

Pat Grady:

現在有個後台任務在運行嗎?可能正在思考如何解決世界和平問題。

Hunter Lightman:

有一個類似的故事叫《最後的問題》,講的是一個巨大的計算機 AI 被問到如何逆轉熵,它回答:「我需要更長的時間思考。」

故事接著講述了,10年後,它還在思考,100 年後,1000 年後,甚至一萬年後,它還在思考。

Ilge Akkaya:

「目前還沒有足夠的信息來提供有意義的答案。」類似於這樣。

Sonya Huang:

你對未來有猜測嗎?你覺得當模型的推理時間越來越長,它的智力極限會達到什麼程度?目前我看到的報告是,它的智商大約是 120,那它會無限提高嗎?

Hunter Lightman:

一個重要的點是,120智商只是某個測試中的分數,並不意味著它在所有領域都有120的推理能力。

實際上,我們也談到,它在某些方面的表現不如 40 分,比如在創造性寫作等方面。所以,推測這個模型的能力是很複雜的。

Noam Brown:

這是一個重要的點。我們談論這些基準測試時,強調了GPQA,這是一個博士生會遇到的問題集合,通常由博士生來解答,但 AI 現在在這個基準測試中超過了很多博士生。

這並不意味著它在所有方面都比博士生聰明。博士生和人類能夠做很多 AI 無法做到的事情。所以我們在看這些測試結果時,應該理解它只是測量了某些特定的能力,通常是人類智力的代理,但對 AI 來說,意義有所不同。

Hunter Lightman:

也許可以這樣說,我希望看到的是,當我們讓模型在它已經擅長的領域思考更長時間時,它會變得更好。

我的一個「Twitter時刻」是看到我以前的數學教授發推,他對 o1 印象深刻,因為他給了它一個之前從未被 AI 解過的證明,而它竟然完成了。

這讓我感覺我們正處於某個有趣的轉折點,模型有望成為一個有用的數學研究工具。如果它能夠幫助完成一些小的引理和證明,那將是一個真正的突破。我希望通過讓它思考更長時間,我們能夠在這方面取得更大的進展。

要預測它在當前不擅長的領域會如何表現,這對我來說很難。我們如何讓它在這些方面變得更好?未來會如何發展

但是我們可以以它現在擅長的領域為基礎,假設如果我們讓它在這些領域思考更久,它將成為數學研究的好助手、軟件工程的好幫手。這樣我們就可以開始預測未來的發展方向。

Pat Grady:

關於擴展的瓶頸問題。對於預訓練來說,很明顯你需要大量的計算能力、大量的數據,這些都需要大量的資金。所以很容易理解預訓練在擴展方面的瓶頸。那麼,推理時間的擴展會有什麼限制呢?

Noam Brown:

當 GPT-2和  GPT-3 發佈時,很明顯只要投入更多的數據和GPU,它們的性能就會顯著提升。

但即便如此,從 GPT-2到  GPT-3 再到  GPT-4 之間還是花了好幾年的時間。這不僅僅是一個簡單的想法,還有很多工作要做,才能把它擴展到一個非常大的規模。

我認為這裏也面臨類似的挑戰,雖然這個想法很簡單,但要真正擴展它,需要投入大量的工作。所以我認為這是挑戰所在。

Hunter Lightman:

是的,我認為對於那些學術背景較強的研究人員來說,加入 OpenAI 後可能會發現令人驚訝的事情之一是,很多問題最終並不是研究問題,而是工程問題。

構建大規模系統、訓練大規模系統,以及運行那些早已發明的算法,或者前所未有的系統,都是非常困難的。這需要大量艱難的工程工作,才能讓這些東西擴展起來。

Ilge Akkaya:

此外,我們還需要知道該在什麼標準上測試模型。我們確實有標準的評估基準,但可能還有一些我們尚未測試到的領域。所以我們也在尋找這些領域,在這些地方我們可以投入更多的計算資源,獲得更好的測試結果。

Sonya Huang:

我一直很難理解的是,當你給模型提供接近無限的計算資源時,會發生什麼。作為一個人類,即便是 Terrence Tao 這樣的大腦天才,也會受到生理限制。

而你可以無限增加推理時間的計算資源。這是否意味著,所有的數學定理最終都可以通過這種方法解出來?或者你認為會有某種極限?

Hunter Lightman:

無限計算資源是很大的計算能力。

Sonya Huang:

接近無限。

Hunter Lightman:

這讓我想起了Asimov的故事,如果你讓它思考一萬年,也許能解決某些問題。但說實話,我們還不知道這種擴展對於解決真正難的數學定理意味著什麼。可能真的需要讓它思考一千年,才能解決一些未解的核心數學問題。

Noam Brown:

是的,我的意思是,如果你讓它思考足夠長的時間,理論上你可以把一切形式化,像Lean那樣,把所有可能的證明都遍曆一遍,最終你會發現定理。

Hunter Lightman:

我們已經有算法可以解決任何數學問題,也許這就是你要說的。

Noam Brown:

是的,只要有無限的時間,你可以做很多事情。當然,隨著時間的延長,回報會逐漸遞減,但的確可以取得一些進展。

Sonya Huang:

非常公平。你認為關於 o1 最大的誤解是什麼?

Noam Brown:

我覺得一個大誤解是,當項目名稱「草莓」(strawberry)泄露時,人們以為這是因為網絡上流傳的一個問題:「草莓有多少小時?」其實並不是這樣。

當我們看到這個問題時,我們還很擔心是不是有內部信息泄露。但據我們所知,這隻是個巧合,我們的項目名字碰巧叫「草莓」,而那個問題也恰好流行起來了。

Hunter Lightman:

據我所知,之所以叫「草莓」,只是因為當時有人需要想個代號,而屋裡有個人正好在吃一盒草莓,事情就這樣定了。

Pat Grady:

相比之下,這個名字比「曉士頓」要更容易讓人聯想。

Noam Brown:

我覺得我對它被理解得這麼好感到印象深刻。我們在發佈時確實不確定大家會怎麼接受。內部有過很大的爭論:人們會不會失望,因為它並不能在所有方面都更好?還是他們會對它驚人的數學表現感到印象深刻?

我們真正想傳達的並不是這個模型目前的能力,而是它未來的發展方向。我不確定大家是否能理解這一點,但似乎很多人確實領會了,所以我對此非常滿意。

Sonya Huang:

關於 o1 ,你覺得有沒有什麼批評是合理的?

Hunter Lightman:

毫無疑問,它並不能在所有方面表現得更好。它是一個有點古怪的模型,很多人在互聯網上發現了不同的提示方式來更好地使用它。

仍然有很多怪異的邊緣案例,我很期待看到生態系統如何基於我們的平台開發出更智能的產品和應用。

Hunter Lightman:

我覺得我們還處於非常早期的階段。有點像一年前人們開始真正搞清楚如何使用  GPT-4 及其語言模型程序,進而使得軟件工程工具變得更智能。我希望我們會看到類似的進展,人們會基於 o1 進行創新。

Pat Grady:

說到這一點,有一件我們還沒討論的事情,就是 o1 Mini。我聽到很多人對 o1 Mini非常興奮,因為大家普遍對小模型感興趣。

如果你能夠保留推理能力並提取部分世界知識,那麼這是一件非常不錯的事情。我很好奇,你們對 o1 Mini和它代表的方向有多興奮?

Ilge Akkaya:

這個模型非常令人興奮。對我們研究人員來說,如果模型運行得快,它的用途就更廣泛。所以我們也很喜歡它。它們有不同的用途。

我們很高興有一個更便宜、更快的版本,還有一個更重、更慢的版本。它們在不同的場景中都非常有用。所以,我們對取得的這種平衡感到非常興奮。

Hunter Lightman:

我喜歡這種表述,這強調了進展的重要性。o1 Mini讓我們能夠更快地迭代,希望對廣大的用戶生態系統來說,它也能讓他們更快地迭代。所以它至少在這一點上是非常有用且令人興奮的產物。

Sonya Huang:

對於那些在 AI 領域創業的創始人們來說,他們應該如何考慮何時使用  GPT-4 ,何時使用 o1 ?是否需要他們從事 STEM、編程、數學相關的工作才能使用 o1 ?他們應該怎麼思考這個問題?

Hunter Lightman:

我希望他們能幫我們找到答案。

Noam Brown:

我們發佈 o1 Preview的動機之一是想看看人們最終會用它做什麼,怎麼使用它。事實上,我們還討論過是否值得發佈 o1 Preview。

但最終發佈的原因之一就是為了讓大家儘早接觸到它,看看它在什麼場景下最有用,在哪些場景下不太合適,以及如何改進它以滿足用戶的需求。

Sonya Huang:

你覺得人們目前最容易低估 o1 的是什麼?

Hunter Lightman:

我覺得這證明了我們給模型命名的能力有所提升,至少我們沒叫它「  GPT-4 .5 思維模式」。

Sonya Huang:

不過,我覺得「草莓」這個名字挺可愛的。

Pat Grady:

我覺得「思維模式」也挺有意思。你們對 o2 或 o3 最興奮的是什麼?

Ilge Akkaya:

我們還沒有達到沒想法的地步,所以我很期待接下來的進展。我們會繼續研究,最期待的是獲得反饋。作為研究人員,我們顯然在自己擅長的領域有一定的偏見,但通過產品的使用,我們將收到來自各個不同領域的反饋。也許我們會發現一些超出我們想像的領域值得深入推進。