三萬字詳解!GPT-5:你需要知道的一切

作者:Alberto Romero (青稞AI整理)原文:https://www.thealgorithmicbridge.com/p/gpt-5-everything-you-need-to-know

這篇超長的文章(部分是評論,部分是探索)是關於 GPT-5 的。但它的內容遠不止於此。它講述了我們對下一代人工智能模型的期望。它講述了即將出現的令人興奮的新功能(如推理和代理)。它講述了 GPT-5 技術和 GPT-5 產品。它講述了 OpenAI 面臨的競爭業務壓力以及其工程師面臨的技術限制。它講述了所有這些事情——這就是為什麼它有 14,000 個字那麼長。

你現在想知道,既然你已經聽說了有關 GPT-5 的泄密和謠言,為什麼還要花一個小時閱讀這篇迷你書大小的文章。答案是:如果沒有背景,零散的信息是無用的;只有當你把所有信息都放在一個地方時,大局才會清晰。就是這樣。

在我們開始之前,我們先簡單介紹一下 OpenAI 的成功歷程,以及為什麼人們對 GPT-5 的巨大期待會給他們帶來壓力。四年前,也就是 2020 年,GPT-3[1]震驚了科技界。Google、Meta 和微軟等公司紛紛挑戰 OpenAI 的領先地位。他們確實這麼做了(例如LaMDA [2]OPT [3]MT-NLG [4]),但僅僅幾年後。到 2023 年初,在 ChatGPT 取得成功(引起 OpenAI 的廣泛關注)之後,他們準備發佈GPT-4 [5]。同樣,各大公司紛紛效仿 OpenAI。一年後,Google推出了 Gemini 1.5,Anthropic 推出了 Claude 3,Meta 推出了 Llama 3。OpenAI 即將宣佈 GPT-5,但它的競爭對手現在還有多遠?

差距正在縮小,競爭再次陷入僵局,因此每個人——客戶、投資者、競爭對手和分析師——都在關注 OpenAI,興奮地想看看他們是否能第三次重覆這一飛躍,將他們推向一年後的未來。這就是 GPT-5 的隱含承諾;OpenAI 希望在與歷史上最強大的科技公司的戰鬥中保持影響力。想像一下,如果期望沒有得到滿足(比爾蓋茨等業內人士[6]認為這可能會發生),人工智能世界將是多麼失望。

這就是 GPT-5 正在醞釀的充滿活力和期待的環境。一步走錯,每個人都會向 OpenAI 發起攻擊。但如果 GPT-5 超出我們的預期,它將成為未來幾年人工智能難題的關鍵一環,不僅對 OpenAI 及其相當綠色的商業模式如此,對為其付費的人——投資者和用戶也是如此。如果發生這種情況,Gemini 1.5、Claude 3 和 Llama 3 將重新陷入話語的默默無聞,而 OpenAI 將再次鬆一口氣。

為了清晰起見,文章分為三個部分。

  • • 首先,我寫了一些關於 GPT-5 的元知識:其他公司是否會對 GPT-5 做出回應,對數字的懷疑(例如 GPT-4.5 與 GPT-5),以及我稱之為「GPT 品牌陷阱」的東西。如果你只想瞭解 GPT-5 本身,你可以跳過這部分。

  • • 其次,我整理了一份有關 GPT-5 的信息、數據點、預測、泄漏、提示和其他證據的列表。本節重點介紹來源的引述(含糊不清時添加我的解釋和分析),以回答以下兩個問題:GPT-5 何時問世以及它會有多好?

  • • 第三,我通過循序漸進的方式探索了我們可以從 GPT-5 中期待什麼,以及我們對這些領域官方仍然一無所知(甚至沒有泄露)的內容:縮放定律(數據、計算、模型大小)和算法突破(推理、代理、多模態性等)。這些都是有根據的猜測,因此也是最有趣的部分。

本文大綱:

  • • 第 1 部分:有關 GPT-5 的一些元信息

    • • GPT-5 類模型[7]

    • • GPT-5 還是 GPT-4.5?[8]

    • • GPT品牌陷阱[9]

    • 第二部分:我們對 GPT-5 所瞭解的一切

    • • OpenAI 何時發佈 GPT-5?[10]

    • • GPT-5 會有多好?[11]

    • • OpenAI 的目標如何塑造 GPT-5[12]

    • 第三部分:關於 GPT-5我們不知道的一切

    • • GPT-5 和縮放定律的統治[13]

      • • 模型大小[14]

      • • 數據集大小[15]

      • • 計算[16]

      • • 我對 GPT-5 大小的估計[17]

      • GPT-5 的算法突破[18]

      • • 多模態[19]

      • • 機器人[20]

      • • 推理[21]

      • • 個性化[22]

      • • 可靠性[23]

      • • 代理[24]

      • 結束語

      第 1 部分:有關 GPT-5 的一些元信息

      GPT-5 類模型

      2023 年 3 月至 2024 年 1 月期間,當你談論最先進的人工智能或跨學科能力時,你談論的是 GPT-4。沒有其他東西可以與之相比。OpenAI 的模型獨樹一幟。

      自 2 月份以來,情況發生了變化。Google Gemini(1.0 Ultra 和 1.5 Pro)和 Anthropic Claude 3 Opus 是 GPT-4 級模型(即將推出的Meta Llama 3 405B也是 GPT-4 級[25],在撰寫本文時仍在訓練中)。這個備受追捧的頭銜早就該有競爭者了,但最終還是來了。優點和缺點取決於您如何使用它們,但就性能而言,這三款產品都差不多[26]

      這一新現實——以及早期採用者似乎一致認為 Claude 3 Opus 比 GPT-4 更好(在最近的GPT-4 渦輪升級之後[27],可能不再如此[28])或 Llama 3 405B 評估在中級檢查點方面已經表現強勁——讓人們對 OpenAI 的領導地位產生了懷疑。

      但我們不應忘記,OpenAI 與其他模型之間有一年的差距;按照 AI 進步速度的標準,GPT-4 是一個老模型。不可否認,最新的 GPT-4 turbo 版本一點也不老(於 4 月 9 日發佈)。然而,很難否認,區分 GPT-4 版本的適度迭代改進與 Google、Anthropic 或 Meta 的全新最先進模型相媲美。GPT-4 的骨架已有 1.5 年的歷史;這就是與 Gemini、Claude 和 Llama 相比的關鍵,它們肯定在更深層次上利用了最新的研究(例如架構變化),而 GPT-4 可能僅通過更新微調就無法採用這些研究。

      有趣的問題是:OpenAI 在構建 GPT-5 時是否保持了其優勢?還是其競爭對手終於縮小了差距?

      一種可能性是,Google、Anthropic 和 Meta 已經向我們提供了它們的所有產品:Gemini 1.0/1.5、Claude 3 和 Llama 3 是它們目前能做到的最好的產品。我認為兩者都不是這種情況(這裏我將跳過 Meta 的情況,因為它們的情況相當特殊,應該單獨分析)。1[29]讓我們從Google開始。

      Google在發佈Gemini Advanced (帶有 1.0 Ultra 後端)[30]一週後宣佈了Gemini 1.5 [31]。他們只讓我們一睹 Gemini 1.5 的功能;他們宣佈了中間版本 1.5 Pro,它已經是 GPT-4 級的了[32],但我認為這並不是他們最好的版本。我相信 Gemini 1.5 Ultra 已經準備就緒。如果他們還沒有推出它,那是因為他們吸取了 OpenAI 自早期以來一直在利用的一個教訓:把握好發佈時機是成功的基礎。生成式人工智能競賽太廣泛了,不容忽視這一點。

      考慮到1.0 Pro 和 1.0 Ultra 之間[33]存在很大差距,可以合理地假設 Gemini 1.5 Ultra 將明顯優於 1.5 Pro(儘管Google尚未改進命名部分)。但 Gemini 1.5 Ultra 會有多好?GPT-5 級別有多好?我們不知道,但考慮到 1.5 Pro 的評估分數,這是有可能的。

      要點是,Gemini 1.0 達到 GPT-4 級別並不是偶然的(這不是碰壁的結果,也不是Google局限性的標誌),而是一個預先定義的計劃,旨在告訴世界他們也可以創造出那種人工智能(讓我提醒你,構建模型的團隊[34]不是負責Google經常失敗的營銷部分的團隊[35])。

      Anthropic 的情況對我來說不是那麼清楚,因為他們比Google和 OpenAI 更不願意接受媒體採訪,但我沒有理由排除他們,因為 Claude 3 的表現比 GPT-4 略高,很難相信這隻是巧合。另一個有利於 Anthropic 的關鍵點是它成立於 2021 年。一家世界級的人工智能初創公司需要多少時間才能開始在最高水平上競爭?合作夥伴關係、基礎設施、硬件、訓練時間等都需要時間,當 OpenAI 開始訓練 GPT-4 時,Anthropic 才剛剛安定下來。Claude 3 是 Anthropic 的第一次真正努力,所以如果 Claude 4 比預期的更早到來,並且與 OpenAI 用 GPT-5 可能實現的任何目標相匹配,我不會感到驚訝。

      我看到的模式很明顯。對於每一代最先進的模型(首先是 GPT-3 級別,然後是 GPT-4 級別,接下來是 GPT-5 級別),領先者與其他模型之間的差距都在縮小。原因很明顯:頂級人工智能公司已經學會了如何可靠地構建這項技術。構建一流的大型語言模型 (LLM) 是一個已解決的問題。這不再是 OpenAI 的秘密。他們一開始就佔據優勢,因為他們發現了別人還沒有發現的東西,但其他人已經趕上了。

      即使公司擅長向間諜和泄密者隱瞞商業機密,技術和創新最終也會在可行且經濟實惠的方面趨於一致。GPT-5 類模型可能存在一定程度的異質性(就像 GPT-4 類模型一樣),但它們的發展方向都是相同的。

      如果我沒記錯的話,這會讓 GPT-5 本身失去相關性——這就是為什麼我認為這篇 14,000 字的分析應該被更廣泛地閱讀,而不僅僅是 GPT-5 的預覽——並將其納入整個模型類別中。這是一件好事。

      GPT-5 還是 GPT-4.5?

      3 月初有傳言稱GPT-4.5 已泄露[36](是公告,不是權重)。搜索引擎在 OpenAI 刪除該消息[37]之前就發現了它。網頁上說,「知識截止時間」(模型瞭解世界狀況的時間點)是 2024 年 6 月。這意味著假設的 GPT-4.5 將訓練到 6 月,然後經歷長達數月的安全測試、護欄和紅隊測試,將發佈推遲到年底。

      如果這是真的,這是否意味著 GPT-5 今年不會問世?可能,但不一定。我們需要記住的是,這些名稱(GPT-4、GPT-4.5、GPT-5(或其他完全不同的名字))是 OpenAI 認為足夠高、值得獲得給定發佈號的某種能力水平的佔位符。OpenAI 一直在改進其模型、探索新的研究場所、使用不同級別的計算進行訓練運行並評估模型檢查點。構建新模型並不是一個簡單而直接的過程,而是需要大量的反復試驗、調整細節和「 YOLO 運行[38]」,這可能會產生意想不到的好結果。

      經過所有的實驗後,當他們覺得準備好了,他們就會開始進行大規模的訓練。一旦達到「足夠好」的性能點,他們就會以最合適的名字發佈它。如果他們把 GPT-4.5 稱為 GPT-5 或反之亦然,我們不會注意到。這個一步一步的檢查點過程也解釋了為什麼 Gemini 1.0/1.5 和 Claude 3 可以略高於 GPT-4,但這並不意味著 LLM 存在障礙。

      這意味著,我將在下文中引用的所有關於「GPT-5 發佈」的消息來源實際上可能在不知不覺中談論的是 GPT-4.5 或某種名稱不同的新奇事物。也許,將知識截止時間定在 2024 年 6 月的 GPT-4.5 泄漏將是經過進一步改進後的 GPT-5(也許他們試圖達到 GPT-4.5 的水平,但無法完全達到,因此不得不放棄發佈)。這些決定會根據內部結果和競爭對手的動向而不斷變化(也許 OpenAI 在 3 月份沒有預料到 Claude 3 會成為公眾首選的模型,因此決定放棄 GPT-4.5 版本)。

      有充分的理由認為不會發佈 GPT-4.5:在競爭如此激烈、審查如此嚴格的情況下,發佈 .5 個版本是沒有意義的(即使 Sam Altman 表示他希望加倍進行迭代部署[39],以避免震驚世界並給我們時間去適應等等)。

      人們會不自覺地將每個新的大版本都視為「下一個模型」,無論數字是多少,並會根據自己的期望對其進行測試。如果用戶覺得它不夠好,他們會質疑為什麼 OpenAI 沒有等待 .0 版本。如果他們覺得它非常好,那麼 OpenAI 會懷疑他們是否應該將其命名為 .0,因為現在他們必須做出更大的飛躍才能獲得可接受的 .0 模型。並非所有東西都是客戶想要的,但生成式人工智能現在更像是一個行業,而不是一個科學領域。OpenAI 應該選擇 GPT-5 模型並使其變得更好。

      不過也有例外。OpenAI 發佈了 GPT-3.5 模型,但如果你仔細想想,這是一個低調的變化(後來被 ChatGPT 所掩蓋)。他們並沒有像 GPT-3 和 GPT-4 甚至 DALL-E 和 Sora 那樣大肆宣傳。另一個例子是Google在 Gemini 1 Ultra 發佈一週後發佈的 Gemini 1.5 Ultra。Google希望通過連續兩次發佈高於 OpenAI 最佳模型的版本,加倍其對 GPT-4 的勝利。它失敗了——Gemini 1 Ultra 並不比 GPT-4 好(人們期待更多,而不是一個棘手的演示[40]),Gemini 1.5 被 Sora 推到了一邊,OpenAI 幾個小時後發佈了 Sora(Google還有很多東西要從 OpenAI 的營銷策略中學習)。2[41]無論如何,OpenAI 需要一個很好的理由來發佈 GPT-4.5。

      GPT品牌陷阱

      本節最後要提到的是 GPT 陷阱:與其他公司不同,OpenAI 將其產品與 GPT 首字母縮略詞緊密聯繫在一起,現在 GPT 既是一個技術術語(就像它最初的樣子),也是一個擁有難以放棄的威望和力量的品牌。GPT,即生成式預訓練變壓器,是一種非常特殊的神經網絡架構,可能會也可能不會在新的研究突破中倖存下來。GPT 能否逃脫「自回歸陷阱[42]」?你能將推理注入 GPT 或將其升級為代理嗎?目前尚不清楚。

      我的問題是:OpenAI 是否仍將其模型稱為 GPT,以維護大多數人與 AI 相關的強大品牌,還是會保持嚴謹,一旦技術含義被更好的東西耗盡,就會切換到其他名稱(Q* 或其他)?如果 OpenAI 堅持使用這個無價的首字母縮略詞(正如商標註冊所[43]暗示的那樣),他們是否會因為將其錨定在過去而自我破壞自己的未來[44]?OpenAI 冒著讓人們錯誤地認為他們正在與另一個聊天機器人互動的風險,而他們手中可能有一個強大的代理。只是一個想法。

      第二部分:我們對 GPT-5 所瞭解的一切

      OpenAI 何時發佈 GPT-5?

      3 月 18 日,Lex Fridman 採訪了 Sam Altman [45]。他透露的細節之一是關於GPT-5 的發佈日期[46]。Fridman 問道:「那麼,GPT-5 什麼時候發佈呢?」 Altman 回答說:「我不知道;這是誠實的回答。」

      我相信他的誠實,因為對於他模棱兩可的「我不知道」這句話,可能會有不同的解釋。我認為他確切地知道他想讓OpenAI 做什麼,但生命固有的不確定性讓他有語義空間說,老實說,他不知道。就 Altman所知道的程度而言,他可能不會說更多,因為首先,他們仍在決定是否發佈中間版 GPT-4.5,其次,他們正在與競爭對手拉開距離,第三,他不想透露確切日期,以免讓競爭對手有機會以某種方式掩蓋發佈,就像他們一直對Google所做的那樣。

      隨後,他猶豫著是否要回答 GPT-5 是否會在今年問世,但補充說[47]:「我們今年將發佈一款令人驚歎的新模型;我不知道我們會給它起什麼名字。」我認為,我在上面「GPT-5 這個名字是隨意的」一節中的論點已經解決了這個模糊性問題。Altman還表示,[48]他們「還有很多其他重要的東西要先發佈」(他可能指的是:公共 Sora 和語音引擎、獨立的網絡/工作 AI 代理、更好的 ChatGPT UI/UX、搜索引擎、Q* 推理/數學模型)。因此,構建 GPT-5 是當務之急,但發佈它不是當務之急。

      Altman 還表示,OpenAI 之前未能做到「不向世界發佈令人震驚的更新[49]」(例如第一個 GPT-4 版本)。這可以解釋他對 GPT-5 發佈日期含糊其辭的原因。他補充說:「也許我們應該考慮以不同的方式發佈 GPT-5。」我們可以將此解讀為一種示意性評論,但我認為這有助於解釋 Altman 猶豫不決,不願說「我知道我們什麼時候會發佈 GPT-5,但我不會告訴你」,這樣說是公平且可以理解的。

      這甚至可以解釋最新的 GPT-4 turbo 版本(4 月 9 日)[50]在數學推理方面的顯著改進:也許他們以不同的方式發佈 GPT-5 以不震驚世界,方法是先在野外測試其各個部分(例如,針對 GPT-4 的新數學/推理微調),然後將它們組合成一個有凝聚力的整體,形成一個更強大的基礎模型。這同樣是不負責任的,也與 Altman 的話不一致。

      讓我們聽聽其他消息來源。3 月 19 日,也就是 Fridman-Altman 採訪的第二天,Business Insider 發表了一篇新聞文章,題為「消息人士稱,OpenAI 預計將在年中為其聊天機器人發佈‘實質性改進’的 GPT-5 [51]」,這與 Altman 前一天的說法完全相反。如果 Altman 不知道日期,非 OpenAI 的消息來源怎麼會知道?如果 OpenAI 還有這麼多東西要先發佈,GPT-5 怎麼會在年中發佈?這些信息是不連貫的。以下是 Business Insider 寫道:

      據兩位知情人士透露,由Sam Altman[52]領導的這家生成式人工智能公司 有望在年中某個時候(可能是夏季)推出 GPT-5。其中一位知情人士表示,OpenAI 仍在訓練 GPT-5。訓練完成後,它將在內部進行安全測試,並進一步進行「紅隊測試」……

      因此,GPT-5 在 3 月 19 日仍在訓練中(這是文章中唯一一個不是預測而是事實的數據點)。讓我們採取慷慨的估計,假設它已經完成訓練(2024 年 4 月),OpenAI 已經在進行安全測試和紅隊測試。在他們準備部署之前,這會持續多久?讓我們再次採取慷慨的估計,並說「與 GPT-4 相同」(GPT-5 可能更複雜,正如我們將在下一節中看到的那樣,這是一個安全的下限)。GPT -4 於 2022 年 8 月完成訓練[53],OpenAI 於 2023 年 3 月宣佈了這一消息。這是七個月的安全層。但請記住,微軟的 Bing Chat 已經在後台運行 GPT-4。Bing [54]Chat 於 2023 年 2 月初發佈。所以是半年。

      總而言之,最樂觀的估計是 GPT-5 的發佈時間距今還有半年,也就是說,發佈日期不是 2024 年夏天(六月似乎是 AI 發佈的最佳時間),而是 2024 年 10 月——最好的情況下!也就是選舉前一個月。考慮到AI 驅動的政治宣傳的先例,OpenAI 肯定不會那麼魯莽[55]

      「GPT-5 將在年中某個時候發佈」可能是 Business Insider 的一個錯誤,指的是 GPT-4.5(或者什麼都沒提到)?我已經說過,我認為 OpenAI 不會用 4.5 取代 GPT-5 公告,但他們可能會將此版本添加為一個中期低調里程碑,同時明確表示 GPT-5 即將推出(在Google和 Anthropic 發佈其他產品之前與他們抗爭是發佈 4.5 版本的一個很好的理由——只要 GPT-5 模型在幾個月後推出)。

      這種觀點調和了我們迄今為止分析的所有信息:它調和了 Altman 的「我不知道 GPT-5 什麼時候發佈」和「我們還有很多其他重要的東西要先發佈」。這也符合加倍迭代部署以及「令人震驚」的新模式對選舉構成的威脅。談到選舉,GPT-5 發佈日期的另一個候選日期是 11 月的 DevDay 左右(我最看好的預測)。去年,OpenAI 於 11 月 6 日舉行了第一次開發者大會,今年是選舉後的第二天。

      考慮到所有這些信息(包括那些不連貫的部分,一旦我們理解「GPT-5」是一個任意名稱,並且非 OpenAI 來源可能會混淆即將發佈的版本的名稱,這些不連貫的部分就說得通了),我打賭:GPT-4.5(可能是 GPT-5 的另一種偷偷推進版本)將於夏季發佈,GPT-5 將在選舉後發佈。OpenAI 將在未來幾個月發佈一些新產品,但這不會是 Altman 所說的今年最大的發佈。(最近的事件表明,更早的驚喜仍有可能。)3[56]

      GPT-5 會有多好?

      這是每個人都在等待的問題。我先聲明一下,我沒有獨家信息。但這並不意味著你不會從本節中得到任何東西。它的價值有兩方面:首先,它是你可能錯過的資料的彙編;其次,它是對信息的分析和解釋,可以進一步闡明我們可以期待什麼。(在「算法突破」部分,我更深入地探討了 GPT-5 可能從前沿研究中整合的內容。目前還沒有關於這方面的官方信息,只有線索和線索,以及我對能夠相當好地遵循它們的自信。)

      幾個月來,Altman 一直暗示他對 GPT-5 比現有 AI 更勝一籌充滿信心。今年 1 月,在達沃斯世界經濟論壇期間舉行的一次私人談話中,Altman 私下接受南韓媒體《每日經濟新聞》等新聞媒體採訪時表示[57]Google翻譯):「GPT2 非常糟糕。GPT3 相當糟糕。GPT4 相當糟糕。但 GPT5 會很好。」一個月前,他告訴 Fridman,GPT-4「有點糟糕[58]」,而 GPT-5 將「更聰明[59]」,不僅在某一方面,而是在各個方面。

      接近 OpenAI 的人士也發表了含糊其辭的言論。李察·何(Richard He)通過 Howie Xu[60]表示:「GPT-4 的大多數局限性將在 GPT-5 中得到修復」,一位未公開的消息人士告訴 Business Insider [61],「[GPT-5] 真的很好,就像是實質性的改進一樣。」所有這些信息都很好,但也有些瑣碎、模糊,甚至不可靠(我們現在可以相信 Business Insider 的消息來源嗎?)。

      然而,Altman 告訴 Fridman 的一件事,我認為是我們掌握的有關 GPT-5 智能的最重要的數據點。他說的是[62]:「我預計 5 和 4 之間的差值將與 4 和 3 之間的差值相同。」這一說法比其他說法的 SNR 豐富得多。如果它聽起來同樣神秘,那是因為它所說的不是關於 GPT-5 的絕對智能水平,而是關於它的相對智能水平,這可能更難分析。具體來說:GPT-3 → GPT-4 = GPT-4 → GPT-5。

      要解釋這個「等式」(誠然,它仍然含糊不清),我們需要技術手段來解開它,同時也需要對 GPT-3 和 GPT-4 有充分的瞭解。這就是我為本節所做的工作(此外,除非發生重大泄密,否則這是我們能從 Altman 那裡得到的最好的信息)。我唯一需要做的假設是,Altman 知道自己在說什麼——他明白這些增量意味著什麼——而且他已經知道 GPT-5 智能的大概情況,即使它還沒有完成(就像沙哲瞭解 Llama 3 405B 檢查點的性能一樣)。由此,我得出了三種解釋(為了清楚起見,我只使用了型號,沒有使用「GPT」):

      第一個解讀是,4-5 和 3-4 的增量是指跨基準評估的可比跳躍,這意味著 5 將比4更**聰明,因為 4 比 3 更聰明(這個開始很棘手,因為眾所周知評估是有問題的[63],但我們先把這個放在一邊)。這肯定是一個人們樂於接受的結果,因為隨著模型變得越來越好,攀登基準變得越來越困難。實際上,難度如此之大,以至於我懷疑這是否有可能。這並不是因為人工智能不能變得那麼智能,而是因為這種智能會讓人類的測量標準太短,即基準對於 GPT-5 來說太容易了。

      [GPT-4 技術報告](https://arxiv.org/abs/2303.08774)[GPT-4 技術報告](https://arxiv.org/abs/2303.08774)

      上圖是 4 與 3.5 的比較(3 更低)。在某些方面,4 並沒有太大的進步,但在其他方面,它比現在好得多,這可能會讓分數變得毫無意義,因為分數太高了。即使我們接受 5 不會在所有方面都變得更好,但在那些方面,它已經超越了基準所能提供的極限。這使得 5 不可能實現與 4 相差 3-4 的大小。至少如果我們使用這些基準的話。

      如果我們假設 Altman 正在考慮更難的基準(例如SWE-bench[64]ARC [65]),其中 GPT-3 和 GPT-4 的表現都很差(GPT-4 在 SWE-bench 上[66]GPT-3 在 ARC 上[67]GPT-4 在 ARC 上[68]),那麼讓 GPT-5 顯示出類似的差異將令人失望。如果你參加為人類設計的考試(例如SAT、Bar、AP [69]),你就不能相信 GPT-5 的訓練數據沒有被汙染[70]

      第二種解釋表明,增量指的是非線性的「指數」縮放定律[71](大小、數據、計算的增加),而不是性能的線性增加。這意味著 5 延續了之前由 2、3 和 4 描繪的曲線,無論在性能方面產生什麼。例如,如果 3 有 175B 個參數,4 有1.8T 個參數[72],那麼 5 將有大約 18 萬億個參數。但參數數量只是[73]擴展方法的一個因素,因此增量可能包括其他所有因素:它們使用了多少計算能力,它們為模型提供了多少訓練數據,等等。(我在下一節中更深入地探討了 GPT-5 與縮放定律的關係。)

      這是 Altman 更穩妥的說法(OpenAI 控制這些變量),也更合理(新興能力需要新的基準,而之前的數據並不存在,因此無法進行 3→4 與 4→5 的比較)。然而,Altman 表示他預計會有這個增量,這表明他並不確定,而這個(例如,訓練 GPT-5 需要多少 FLOP)他會知道。

      第三種可能性是,Altman 的 delta 指的是用戶感知,即用戶會認為 5 比 4 好,就像他們認為 4 比 3 好一樣(問問重度用戶,你就會知道答案是「好很多」)。這是一個大膽的說法,因為 Altman 不可能知道我們會怎麼想,但他可能是根據經驗說的;這是他從初步評估中感受到的,他只是在分享他的軼事評估。

      如果這種解釋是正確的,那麼我們可以得出結論,GPT-5將令人**印象深刻。如果那些最習慣使用以前版本的人真的有這種感覺——他們也是期望最高的人,而這項技術的新鮮感對他們來說已經消退得最厲害。如果我很慷慨,必須打賭哪種解釋最正確,我會選擇這個。

      如果我不覺得慷慨,還有第四種解釋:Altman 只是在炒作他公司的下一款產品。OpenAI 過去曾取得過成績,但激進的營銷策略一直存在(例如,在Google發佈 Gemini 1.5 數小時後發佈 Sora)。我們可以預設使用這一解釋以保證安全,但我相信上述三種解釋都有一定道理,尤其是第三種。

      OpenAI 的目標如何塑造 GPT-5

      在我們進一步深入猜測之前,讓我分享一下我認為正確的框架,以瞭解 GPT-5 能做什麼和不能做什麼,即如何區分明智的猜測和妄想。這可以作為理解 OpenAI 整個 AI 方法的一般視角。我將在 GPT-5 上具體化它,因為這是我們今天的主題。

      OpenAI宣稱的目標是 AGI [74],但這太過模糊,與嚴肅的分析無關。除了 AGI,OpenAI 還有兩個「非官方目標」(如果你願意的話,也可以稱之為工具性目標),它們更具體、更直接,是前進的真正瓶頸(從技術意義上講;從產品角度來看,還有其他考慮因素,比如「製造人們想要的東西[75]」)。這兩個目標是增強能力降低成本。無論我們對 GPT-5 做出什麼假設,都必須遵循平衡兩者的需要。

      OpenAI 總是可以無意識地增強功能(只要其研究人員和工程師知道如何做),但這可能會給 Azure 雲帶來不可接受的成本,而 Azure 雲會不滿微軟的合作關係(微軟與 OpenAI 的合作關係已經不像以前那麼獨家了[76])。OpenAI 不能成為現金流失。DeepMind 早期是Google的無底洞,但藉口是「以科學的名義」。OpenAI 專注於業務和產品,因此他們必須帶來一些豐厚的利潤。

      他們總是可以降低成本(以不同的方式,例如定製硬件、壓縮推理時間、稀疏性、優化基礎設施和應用量化等訓練技術),但盲目這樣做會阻礙能力的發揮(2023 年春季,他們不得不放棄一個代號為「Arrakis」的項目[77],通過稀疏性提高 ChatGPT 的效率,因為它的表現不佳)。花更多的錢總比失去客戶的信任要好——或者更糟的是,失去投資者的信任。

      因此,無論如何,由於這兩個相互矛盾的要求(能力和成本)位於 OpenAI 優先級的頂部(僅低於始終模糊的 AGI),即使我們缺乏官方信息,我們也可以縮小對 GPT-5 的期望範圍——我們知道他們關心這兩個因素。如果我們加上限制他們選擇的外部環境,平衡將進一步對 OpenAI 不利:GPU 短缺(不像2023 年中期那麼嚴重[78],但仍然存在)、互聯網數據短缺[79]數據中心短缺以及對[80]新算法的[81]迫切搜索。

      最後一個因素直接影響了 GPT-5,並以某種方式推動 OpenAI 打造出他們所能打造的最強大的模型:他們在行業中的特殊地位。OpenAI 是最受矚目的人工智能初創公司,在經濟和技術上處於領先地位,每次他們發佈新東西時,我們都會屏住呼吸。所有人的目光都集中在他們身上——競爭對手、用戶、投資者、分析師、記者,甚至政府——所以他們必須大幹一場。GPT-5 必須打破預期,改變範式。儘管 Altman 說過迭代部署和不震驚世界,但在某種程度上,他們必須震驚世界。哪怕只是一點點。

      因此,儘管成本和一些外部約束(計算、數據、算法、選舉、社會影響)限制了他們的發展,但對增強能力的無限渴求和稍微震撼世界的需要將推動他們走得儘可能遠。讓我們看看他們能走多遠。

      第三部分:關於 GPT-5我們不知道的一切

      GPT-5 和縮放定律的統治

      2020 年,OpenAI 設計了一種經驗形式的擴展定律[82],自此以後,該定律定義了 AI 公司的發展路線圖。主要思想是,三個因素足以定義甚至預測模型性能:模型大小、訓練 token 數量以及計算/訓練 FLOP(2022 年,DeepMind 將這些定律[83]和我們對如何訓練計算效率高的模型的理解細化為所謂的「Chinchilla 擴展定律」,即最大的模型訓練不足;您需要按與模型大小相同的比例擴展數據集大小,以充分利用可用的計算並實現性能最高的 AI)。

      擴展定律(無論是 OpenAI 的原始形式還是 DeepMind 的修訂版本)的底線意味著,隨著預算的增長,大部分預算應該分配給擴展模型(大小、數據、計算)。(即使定律的具體內容存在爭議[84],但無論常數是什麼,它們的存在在這一點上都是毋庸置疑的。)

      奧爾特曼在 2023 年聲稱[85],「我們正處於這些巨型模型時代的終結,我們將通過其他方式讓它們變得更好。」這種方法塑造了 GPT-4(並且肯定會塑造 GPT-5),同時又不放棄規模,其中之一[86]就是使其成為專家混合模型 (MoE),而不是像 GPT-3 和 GPT-2 那樣的大型密集模型。

      MoE 巧妙地將小型專業模型(專家)組合在一起,這些模型會根據輸入的性質進行激活(您可以將其想像為數學專家來解決數學問題,創意專家來撰寫小說等等),通過門控機制激活,該機制也是一個神經網絡,可以學習將輸入分配給專家。在固定預算下,與小型密集模型相比,MoE 架構可以提高性能並縮短推理時間,因為對於任何給定查詢,只有一小部分專業參數處於活動狀態。

      Altman 關於「巨型模型時代的終結」或從密集模型到多模態模型的轉變是否與縮放定律相矛盾?一點也不。如果說有什麼不同的話,那就是通過利用架構優化等其他技巧,更明智地應用了縮放的經驗教訓(我錯誤地批評了OpenAI 將 GPT-4 變成了多模態模型[87])。在生成式人工智能中,縮放仍然是王道(尤其是在語言和多模態模型中),因為它有效。你能通過在其他方面改進模型讓它更好地發揮作用嗎?太棒了!

      在最高水平上競爭的唯一方法是用整體視角來對待人工智能創新:如果更多的計算和數據可以為你縮小性能差距,那麼大量研究更好的算法是沒有意義的。當更簡單的架構或優化技術可以為你節省一半的錢時,在 H100 上浪費數百萬美元也是沒有意義的。如果將 GPT-5 放大 10 倍可行,那很好。如果將其變成超級 MoE 可行,那很好。

      弗列特曼問阿爾特曼,創建 GPT-5 的主要挑戰是什麼(計算還是技術/算法),阿爾特曼說:「總是所有這些。」他補充說:OpenAI 真正擅長的事情是「我們將 200 個中等大小的東西組合成一個巨大的東西。」4[88]

      人工智能一直是一個權衡的領域,但一旦生成式人工智能進入市場併成為一個盈利行業,就會增加更多的權衡。OpenAI 正在處理所有這些問題。目前,尋找更好路線的首選啟髮式方法是遵循Richard Sutton 在《苦澀的教訓》中的建議[89],這是縮放定律的非正式表述。以下是我用一句話總結 OpenAI 處理這些權衡的整體方法:堅信縮放定律,但在有希望的研究面前不要過於保守。

      GPT-5 是這種整體觀點的產物,因此它將充分利用縮放定律——以及任何其他東西,只要它能讓 OpenAI 更接近其目標。縮放在哪些方面定義 GPT-5?我的猜測很簡單:在所有方面。增加模型大小,增加訓練數據集,增加計算/FLOP。讓我們做一些粗略的數字。

      模型大小

      GPT-5 也將是一個 MoE(AI 公司現在大多出於充分的理由製作 MoE;高性能和高效推理。Llama 3 是一個有趣的例外,可能是因為它旨在(尤其是較小的版本)在本地運行,以便 GPU 貧乏者可以在有限的內存中安裝它)。GPT-5 將比 GPT-4 更大(總參數數量意味著,如果 OpenAI 沒有找到比 MoE 更好的架構設計,那麼 GPT-5 將擁有比 GPT-4 更多的專家或更大的專家,無論哪種方式都能產生最佳的性能和效率組合;還有其他方法可以添加參數,但這對我來說最有意義)。

      GPT-5 會大多少還不得而知。我們可以天真地推斷出參數數量的增長趨勢:GPT,2018 年(1.17 億[90]),GPT-2,2019 年(15 億[91]),GPT-3,2020 年(1.75 億[92]),GPT-4,2023 年(1.8 萬億[93],估計),但跳躍並不對應任何明確的曲線(尤其是因為 GPT-4 是 MoE,因此它不能與其他模型進行同類比較)。這種天真的推斷不起作用的另一個原因是,新模型的規模取決於訓練數據集的大小和可以訓練它的 GPU 數量(記住我之前提到的外部限制;數據和硬件短缺)。

      我找到了其他地方發佈的尺寸估計(例如2-5T 參數[94]),但我認為沒有足夠的信息來做出準確的預測(無論如何,我已經計算過了,即使最終不是非常準確,也可以給你一些有趣的東西)。

      讓我們看看為什麼做出明智的規模估計比聽起來更難。例如,艾倫·湯臣 (Alan Thompson) 給出的上述 2-5T 數字是基於這樣的假設:與 GPT-4 相比,OpenAI 對 GPT-5 使用的計算量是 GPT-4 的兩倍(「10,000 → 25,000 個 NVIDIA A100 GPU 和一些 H100」),訓練時間是 GPT-4 的兩倍(「約 3 個月 → 約 4-6 個月」)。

      GPT-5 早在 11 月就已開始訓練[95],而最後一次訓練在一個月前仍在進行中,[96]因此將訓練時間增加一倍是有道理的,但 GPU 數量不對。當他們開始推出 GPT-5 時,儘管 H100 GPU 短缺,但 OpenAI 仍可以使用 Microsoft Azure Cloud 的大部分計算能力,即「 [10k-40k H100 ](https://gpus.llm-utils.org/nvidia-h100-gpus-supply-and-demand/#:~:text=Azure probably has 10k-40k H100s. Should be similar for Oracle. Most of Azure’s capacity is going to OpenAI)」。因此,GPT-5 可能比 2-5T 大 3 倍(我已在下面寫下了我的計算細節)。

      數據集大小

      Chinchilla 縮放定律表明,最大的模型訓練不足,因此如果沒有更多數據來提供附加參數,那麼讓 GPT-5 比 GPT-4 更大是沒有意義的。

      即使 GPT-5 的大小相似(我不會打賭這不會違反縮放定律並且在新的算法範式下可能是合理的),Chinchilla 定律表明,僅靠更多的數據也會產生更好的性能(例如,Llama 3 8B 參數模型在 15T 令牌上進行訓練,嚴重「過度訓練」,但當他們停止訓練時它仍在學習)。[97]

      據估計, GPT-4(1.8T 參數)已針對大約12-13[98]萬億個 token[99]進行了訓練。如果我們保守地假設 GPT-5 與 GPT-4 的大小相同,那麼 OpenAI 仍然可以通過向其輸入多達 100 萬億個 token 來改進它——如果他們找到[100]收集這麼多 token[101]的方法!如果它更大,那麼他們需要那些多汁的 token。

      OpenAI 的一個選擇是使用 Whisper[轉錄 YouTube](https://www.nytimes.com/2024/04/06/technology/tech-giants-harvest-data-artificial-intelligence.html#:~:text=Transcribing YouTube)影片(他們一直違反 YouTube 的服務條款[102])。另一個選擇是合成數據,這在 AI 公司中已經是一種常見的做法[103],一旦人造互聯網數據「耗盡[104]」,這將成為常態。我相信 OpenAI 仍在壓縮最後賸餘的可訪問數據,並尋找新方法來確保合成數據的高質量。

      (他們可能找到了一種有趣的方法來實現後者,從而在不增加預訓練標記數量的情況下提高性能。我在「算法突破」部分的「推理」小節中探討了這一部分。)

      計算

      更多 GPU 允許在同一數據集上構建更大的模型和更多輪次,從而在兩種情況下都能獲得更好的性能(直到他們尚未找到某個點)。要從整個表面分析中得出一個粗略的結論,我們應該關注一件我們確信在 2022 年 8 月至 2023 年 3 月期間(GPT-4 的訓練運行跨度)和現在之間發生了變化的事情:OpenAI 可以訪問 Azure 的數千台 H100,隨後可用 FLOP 的數量會增加,以訓練下一個模型。

      也許 OpenAI 還找到了一種進一步優化 MoE 架構的方法,以相同的訓練/推理成本擬合更多參數,也許他們找到了一種方法,將合成的 AI 生成數據製作成高質量的 GPT-5 代幣,但我們都不確定。然而,Azure 的 H100 具有我們不應忽視的某種優勢。如果有一家 AI 初創公司擺脫了 GPU 短缺,那就是 OpenAI。計算是成本發揮作用的地方,但目前,只要 GPT-5 產生出色的結果(並且還不是 AGI [105]),微軟就會負責這一部分。

      我對 GPT-5 大小的估計

      假設 OpenAI 沒有像 Thompson 所說的那樣使用 25k A100,而是使用了 25k H100 來訓練 GPT-5(微軟雲為 OpenAI 保留的「 [10k-40k H100 ](https://gpus.llm-utils.org/nvidia-h100-gpus-supply-and-demand/#:~:text=Azure probably has 10k-40k H100s. Should be similar for Oracle. Most of Azure’s capacity is going to OpenAI)」的平均值)。四捨五入後,H100訓練 LLM 的速度比 A100 快2[106]4 倍[107](成本相似)。OpenAI 可以在一個月內用這個計算量訓練出一個 GPT-4 大小的模型。如果 GPT-5 需要 4-6 個月的時間,那麼其大小的最終估計值為7-11T 參數(假設相同的架構和訓練數據)。這是 Thompson 估計的兩倍多。但是,把它做這麼大是否有意義,還是最好在更多的 FLOP 上訓練一個較小的模型?我們不知道;OpenAI 今年可能在架構或算法上取得了另一項突破,以在不增加規模的情況下提高性能。

      現在讓我們進行分析,假設推理是限制因素(Altman 在 2023 年表示,OpenAI 在訓練和推理方面都受到 GPU 的限制,但他希望後者的效率提高 10 倍[108],這表明推理成本最終將超過訓練成本)。有了 25k H100,OpenAI 對 GPT-5 的最大浮點數是 GPT-4 的兩倍,推理批次大小更大,並且能夠以 FP8 而不是 FP16(半精度)進行推理。這意味著推理性能提高了2[109]8 倍[110]。GPT-5 的參數可能多達10-15T ,比 GPT-4 大一個數量級(如果在推理時將模型權重分配到 GPU 上的現有並行配置[111]不會在這種規模下崩潰,但我不知道)。OpenAI 還可以選擇使其效率提高一個數量級,這與更便宜是同義詞(或兩者的某種加權混合)。

      另一種可能性是,考慮到 OpenAI不斷改進 GPT-4 ,[112]我認為這種可能性值得考慮,那就是部分新可用的計算將被重新定向,以使 GPT-4 更高效 / 更便宜(甚至免費,完全取代 GPT-3.5;這是可以想像的,對吧?)。這樣,OpenAI 可以從那些知道 ChatGPT 存在但不願意付費或不知道 3.5 免費版和 4 付費版之間的差距巨大的可疑用戶那裡獲取收入。我不會對服務價格發表更多評論(不確定 GPT-5 是否會在 ChatGPT 上使用),因為沒有確切的規格,就無法判斷(大小/數據/計算是一階不確定性,但價格是二階不確定性)。這隻是商業視角的猜測:ChatGPT 的使用率並沒有增長[113],OpenAI 應該對此做點什麼。5[114]

      GPT-5 的算法突破

      這是最有趣的部分(是的,甚至比上一節更有趣),而且,正如有趣定律所規定的那樣,也是最具推測性的。從 GPT-4 推斷出 GPT-5 的擴展定律是可行的,儘管有點棘手。考慮到目前該領域的不透明度,試圖預測算法的進步是更大的挑戰。

      最好的啟髮式方法是關注與 OpenAI 相鄰的人,潛伏在具有高 SNR 的 alpha 位置,並閱讀來自頂級實驗室的論文。我只做了部分這些,所以請原諒任何古怪的說法。如果你已經讀到這裏,你對我的譫妄已經太深了。所以謝謝你。以下是我們可以期待的提示[115](即 OpenAI 自 GPT-4 以來一直在研究的內容):

      當然,這是奧特曼的營銷,但我們可以利用這種結構化的願景來獲取寶貴的見解。6[116]這些能力中,有些更側重於行為方面(例如推理、代理),而有些則更側重於消費者方面(例如個性化)。所有這些都需要算法上的突破。7[117]問題是,GPT-5 會成為這一願景的實現嗎?讓我們來分析一下,並做出合理的猜測。

      多模態

      幾年前,多模態性還是一個夢想[118]。如今,它已成為必需品。所有頂級人工智能公司(無論是否對 AGI 感興趣)都在努力讓他們的模型能夠捕捉和生成各種感官模態。人工智能人員喜歡認為沒有必要複製使我們變得聰明的所有進化特徵,但大腦的多模態性是他們無法承受的[119]。這些努力的兩個例子是:GPT-4 可以獲取文本和圖像並生成文本、圖像和音頻。Gemini 1.5 可以獲取文本、圖像、音頻和影片並生成文本和圖像。

      顯而易見的問題是:多模態性將走向何方?GPT-5(以及下一代人工智能模型)將擁有哪些額外的感官技能?我們可能天真地認為人類有五種技能,一旦將它們整合在一起,我們就大功告成了。事實並非如此,人類實際上還有更多[120]。所有這些都是人工智能智能所必需的嗎?我們應該實現動物擁有而我們沒有的那些模式[121]嗎?這些都是有趣的問題,但我們正在討論 GPT-5,所以我堅持直接的可能性;OpenAI 已經暗示已經解決了這些問題。

      Voice Engine[122]表明情感/人類合成音頻已經相當成熟。它已經實現在 ChatGPT 中,因此它將出現在 GPT-5 中(也許不是從一開始就出現)。尚未解決但幾乎最熱門的領域是影片生成。OpenAI在 2 月份宣佈了 Sora [123],但並未正式發佈。據The Information 報導[124],Google DeepMind 首席執行官 Demis Hassabis 表示:「Google可能很難趕上 OpenAI 的 Sora。」考慮到 Gemini 1.5 的功能,這並不是對Google在發佈 AI 產品方面的限制的證實,而是對 Sora 的出色表現的認可。OpenAI 會把它放到 GPT-5 中嗎?他們正在藝術家[125]TED中測試第一印象[126];一旦任何人都可以製作任何東西的影片,誰也說不準會發生什麼。

      據 The Verge 報導,Adobe Premiere Pro 將集成 AI 影片工具,其中可能包括 OpenAI Sora [127]。我敢打賭,OpenAI 會先將 Sora 作為獨立模型發佈,但最終會將其與 GPT-5 合併。考慮到我們已經習慣了文本模型而不是影片模型,這將是對「不震驚世界」承諾的認可。他們將逐步推出對 Sora 的訪問權限,就像他們之前對 GPT-4 Vision 所做的那樣,然後讓 GPT-5 能夠生成(和理解)影片。

      機器人

      Altman 並沒有在「AI 能力」幻燈片中提及人形機器人或實體,但與 Figure 的合作[128](以及你不應該相信的花哨演示[129],即使它是真實的)說明了 OpenAI 未來在該領域的押注(請注意,多模態性不僅僅涉及眼睛和耳朵,還包括觸覺和本體感覺以及運動系統,即行走和靈活性。在某種程度上,機器人技術是多模態性和代理之間的共同因素)。

      我最有信心但不太為人工智能圈接受的觀點[130]之一是,身體是達到人類智力水平的必要條件,無論是矽基還是碳基。我們傾向於認為智力存在於我們的大腦中,但這對我們的身體(以及他人的身體)在感知和認知中所起的關鍵作用是一種智力上的損害。Melanie Michell 寫了一篇關於一般智力的科學評論[131],並談到了具體化和社會化:

      許多研究生物智能的人也懷疑所謂的「認知」智能方面是否可以與其他模式分離並被無形的機器捕獲。心理學家已經 表明[132] ,人類智能的重要方面植根於一個人的具體身體和情感體驗。證據還表明,個人智能在很大程度上依賴於一個人對 社會[133] 和 文化[134] 環境的參與。理解、協調和向他人學習的能力對於一個人實現目標的成功可能比個人的「優化能力」更重要。

      我敢打賭,OpenAI 會重返機器人領域(我們將看到 GPT-5 在多大程度上預示著這種轉變)。他們放棄它[135]不是出於哲學信念(即使公司中的某些成員仍然會說「影片生成將通過模擬一切而導致 AGI [136]」,這表明身體是不必要的),而是出於務實的考慮:沒有足夠的現成數據,模擬不夠豐富,無法將結果推斷到現實世界,現實世界的實驗過於昂貴和緩慢,莫拉維克悖論[137]等。

      也許他們會將工作外包給專注於機器人領域的合作夥伴,從而重返機器人領域。一台內置 GPT-5 的 Figure 02 機器人,能夠進行代理行為和推理——並且能夠直行——這將是一項巨大的工程壯舉,值得見證。

      推理

      這是一個重大突破,GPT-5 可能會以前所未有的方式實現這一突破。奧爾特曼告訴弗列特曼,GPT-5 將比之前的模型更加智能,簡而言之,它將具有更強的推理能力。如果說人類智能在某件事上勝過動物智能,那就是我們可以推理事物。推理,定義就是從現有知識中獲取知識的能力,即通過遵循邏輯規則(如演繹或歸納)將現有知識與新信息相結合,從而更接近真相。這就是我們構建世界心理模型的方式(目前人工智能的一個熱門概念),也是我們製定計劃實現目標的方式。簡而言之,這就是我們在周圍建造奇蹟的方式,我們稱之為文明。

      有意識的推理很難。確切地說,我們感覺很難。這是理所當然的,因為它在認知上比我們做的大多數其他事情都難;在腦海中計算四位數的乘法是只有最聰明的人才能做到的能力。如果它如此困難,那麼天真的計算器如何能夠立即計算出比我們知道的更大的數字呢?這可以追溯到莫拉維克悖論[138](我剛才順便提到過)。漢斯·莫拉維克觀察到,人工智能可以非常輕鬆地完成對我們來說似乎很難的事情,比如高數運算,但它很難完成看起來最平凡的任務,比如直行。

      但是,如果愚蠢的設備可以立即進行神級算術運算,為什麼人工智能在推理解決新任務[139]問題[140]時會比人類困難得多?為什麼人工智能的泛化能力如此之差?為什麼它表現出卓越的晶體智力,卻表現出可怕的流體智力[141]?關於目前最先進的法學碩士(如 GPT-4 或 Claude 3)是否具有推理能力,一直存在爭議。我認為有趣的數據點是,它們無法**像我們一樣推理,無法具有相同的深度、可靠性、穩健性或泛化能力,而只能「以極其有限的方式」進行推理,用 Altman 的話來說。(在[142]MMLU[143]BIG-bench[144]等「推理」基準測試中獲得相當高的分數並不等同於具有像人類一樣的推理能力;它可以通過記憶和模式匹配來捷徑,更不用說受到數據汙染的影響了。)

      我們可以認為這是一個「技能問題」,或者「抽樣可以證明知識的存在,但不能證明知識的缺失[145]」,這些理由都是合理且有效的原因,但不能完全解釋 GPT-4 在人類可以解決的ARC 挑戰等問題上的絕對[146]失敗。進化可能為我們提供了不必要的推理障礙,因為它是一個無效的優化過程,但有大量經驗證據表明,人工智能仍然以 Moravec 沒有預測到的方式落後於我們。8[147]

      以上這些都是為了向你介紹我認為是人工智能推理缺陷背後的深層技術問題。我認為最大的因素是人工智能公司過於注重模仿學習,即從互聯網上獲取大量人造數據,並將其輸入到大型模型中,這樣他們就可以像我們一樣寫作、像我們一樣解決問題(這就是純粹的法學碩士所做的)。其原理是,通過向人工智能輸入幾個世紀以來創造的人類數據,它會學會像我們一樣推理,但這是行不通的。

      模仿學習方法有兩個重要的局限性:首先,互聯網上的知識大多是顯性知識(知道什麼),但隱性知識(知道怎麼做)無法用文字準確傳達,所以我們甚至不會嘗試——你在網上找到的大多是複雜迭代過程的成品(例如,你讀了我的文章,但你完全不知道我必須經過數十次草稿)。(我回到代理人部分的顯性-隱性區別。)

      其次,模仿只是人類兒童學習工具箱中的眾多工具之一。孩子們也會進行實驗、反復試驗和自我對弈——除了模仿之外,我們還有多種學習方式,即通過反饋循環與世界互動來更新知識,以及通過整合機制將其堆疊在現有知識之上。法學碩士缺乏這些批判性推理工具。然而,它們在人工智能領域並非聞所未聞:DeepMind 的 AlphaGo Zero就是以 100-0[148]擊敗AlphaGo[149]的——沒有任何人類數據,只是利用深度強化學習 (RL) 和搜索的組合與自己對弈。

      除了這種強大的反復試驗循環機制之外,AlphaGo 和 AlphaGo Zero 都具有一項附加功能,即使是當今最好的 LLM(GPT-4、Claude 3 等)也不具備這項功能:思考下一步該做什麼的能力(這是一種平凡的說法,他們使用搜索算法通過對比和整合新信息與先前知識來辨別針對目標的壞的、好的和更好的選項)。根據手頭問題的複雜性分配計算能力的能力是人類一直在做的事情(DeepMind 已經測試了這種方法[150]並得到了有趣的結果)。這就是丹尼爾·卡尼曼在他暢銷書《思考,快與慢》中所說的系統 2 思維。Yoshua Bengio[151]Yann LeCun[152]曾試圖賦予 AI「系統 2 思維」能力。

      我相信這兩個功能——自我遊戲/循環/反復試驗和系統 2 思維——是有前途的研究場所,可以開始縮小人工智能和人類之間的推理差距。有趣的是,擁有這些能力的人工智能的存在,比如 DeepMind 的 AlphaGo Zero——還有AlphaZero[153]MuZero [154](甚至沒有遊戲規則)——與當今最新的人工智能系統(如 GPT-4)缺乏這些能力的事實形成了鮮明對比。原因是現實世界(即使只是語言世界)比棋盤更難「解決」:不完美信息、規則和獎勵定義不明確、自由度接近無限的不受約束的動作空間的遊戲是最接近科學中不可能的挑戰。

      我相信,彌合推理遊戲玩家 AI 和推理現實世界 AI 之間的差距是所有當前推理項目的目的(我相信 Gemini已經有了這方面的一些成果[155],但我認為它還沒有顯示出令人滿意的結果)。證據讓我認為 OpenAI 一直專注於通過將搜索和 RL 的功能與 LLM 相結合來擺脫純粹的模仿學習。這就是對 Q* 的猜測[156]所暗示的,也是來自領先研究人員的公開線索悄悄發出的呼聲。也許在 OpenAI 中尋找這方麵線索的關鍵人物是 Noam Brown,他是人工智能推理專家,於 2023 年 6 月從 Meta 加入該公司。他在公告推文中[157]

      多年來,我一直在研究撲克和外交等遊戲中的人工智能自我對弈和推理。我現在將研究如何使這些方法真正具有通用性。如果成功,我們有一天可能會看到比 GPT-4 好 1,000 倍的 LLM。2016 年,AlphaGo 擊敗了李世石,這是人工智能的一個裡程碑。但關鍵在於人工智能在每一步之前「思考」約 1 分鐘的能力……如果我們能發現一個通用版本,那麼好處將是巨大的。是的,推理可能慢 1,000 倍且成本更高,但我們會為一種新的抗癌藥物支付什麼樣的推理成本呢?或者為黎曼猜想的證明?

      我想他只是在你瞭解了我上面提供的背景知識後才說出這一切。最近,在一條現已被刪除的推文中,他說:「你不會通過在人類數據上進行更好的模仿學習來獲得超人的表現。」

      最近在紅杉資本 (Sequoia) 的一次演講[158]中,剛剛離開 OpenAI 的 Andrej Karpathy 也說了類似的話:

      我認為人們還沒有真正看到這個領域的可能性……我認為我們已經完成了 AlphaGo 的第一步。我們已經完成了模仿學習部分。AlphaGo 的第二步是強化學習,人們還沒有做到這一點……這是真正讓它發揮作用併成為超人的部分。……模型需要自我練習……它需要弄清楚什麼對它有用,什麼對它沒用[他認為我們的教學方式不適合人工智能的心理]。

      Brown 和 Karpathy 對模仿學習局限性的言論與 DeepMind 聯合創始人Shane Legg[159]在 Dwarkesh Patel 的播客上所說的話相呼應,再次提到了 AlphaGo:

      要獲得真正的創造力,你需要搜索各種可能性,找到這些隱藏的寶藏(他指的是AlphaGo 與李世石的第二場比賽中著名的第 37 步[160])……我認為當前的語言模型……並沒有真正做到這種事情。它們實際上是在模仿數據……人類的智慧……這些都來自互聯網。

      因此,要超越模仿學習,你必須將其與搜索、自我對弈、強化學習等相結合。這就是人們所認為的 Q。這就是我所認為的 Q。有幾篇論文介紹了如何將搜索能力引入 LLM[161]或如何在遊戲中推廣自我對弈[162],但我還沒有找到確鑿的證據證明 OpenAI 究竟使用什麼來為 GPT-5 添加推理技能。

      具有推理能力的 Q*/GPT-5 會像上述情況一樣令人印象深刻嗎?Yann LeCun 表示,[163]我們應該「忽略關於 Q* 的大量胡說八道」,聲稱所有頂級人工智能實驗室都在研究類似的事情(技術趨於可能,所以這是有道理的)。他指責 Altman 「長期自欺欺人」,這是對Altman 在董事會鬧劇中被解僱前一天關於 Q* 的言論的批評[164]:「[第四次] 當我們推開無知之幕、推進發現前沿時,我終於有機會在場了。」

      但 LeCun 可能也在試圖為 Meta 的工作辯護,或者他只是對 OpenAI 收購 Brown 感到不滿,Brown 在 LeCun 的 FAIR 實驗室創造了 Libratus(撲克)和 CICERO(外交)。(為了支持 LeCun 的警告,我們還應該注意到,Karpathy 說這還沒有完成,Brown 只是暗示了他未來的工作,而不是已經存在的東西。)

      就實際結果而言,考慮到我們目前掌握的有關 AI 推理的背景和證據數量, Flowers (一位半可靠的 OpenAI 泄密者)的評論表明,[165]最新的 GPT-4 turbo 版本[166]是 OpenAI 目前在這方面最先進的版本。The Information 報導稱[167],Q* 可以解決以前從未見過的數學問題,而事實上,新的 GPT-4 turbo 在數學/代碼問題上改進最多(數學任務能最好地顯示推理能力的早期信號)。OpenAI 選擇這個低調的預覽來通過 GPT-4 評估 Q* 作為以推理為中心的模型,在賦予 GPT-5 這種智能之前進行一次「不令人震驚」的中期公開發佈,這也是有道理的。

      我敢打賭,GPT-5 將是一個純粹的 LLM,具有顯著增強的推理能力,借鑒 Q* 類 RL 模型。9[168]除此之外,OpenAI 將繼續進一步探索如何將這兩條尚未完全融合的研究路線結合在一起。

      個性化

      我就長話短說吧。個性化就是讓用戶與人工智能建立更親密的關係。用戶無法將 ChatGPT 變成他們想要的定製助手。系統提示、微調、RAG 和其他技術允許用戶引導聊天機器人按照他們想要的行為行事,但就人工智能對用戶的瞭解和用戶對人工智能的控制而言(以及它發送到雲端以獲得服務器響應的數據而言),這是不夠的。如果你想讓人工智能更多地瞭解你,你需要提供更多的數據,這反過來會降低你的隱私。這是一個關鍵的權衡。

      如果 AI 公司不想讓客戶冒險採用開源技術,即使這需要付出更多努力(Llama 3 讓這種轉變比以往任何時候都更具吸引力),那麼他們就需要找到一種讓他們和客戶都滿意的折衷解決方案。在權力和隱私之間是否存在令人滿意的中間立場?我不這麼認為;如果你做大,你就去雲。OpenAI 甚至沒有試圖讓個性化成為 GPT-5 的強項。原因之一是:該模型將非常龐大且計算量很大,因此不要考慮本地處理和數據隱私(大多數企業不願意將他們的數據發送給 OpenAI)。

      除了隱私和設備處理之外,還有其他一些東西可以實現新的個性化水平(其他公司已經實現了,特別是[Google](https://blog.google/technology/ai/google-gemini-next-generation-model-february-2024/#context-window:~:text=In our research%2C we’ve also successfully tested up to 10 million tokens)和Magic [169],儘管只有Google公開發佈了具有此功能的模型):數百萬個令牌上下文窗口。

      從向 ChatGPT 提出兩個句子的問題到能夠用包含十年工作成果的 400 頁 PDF 填充提示窗口,ChatGPT 可以幫助您檢索其中可能隱藏的任何內容,適用性有了很大的提高。為什麼以前沒有這個功能?因為對如此多的輸入提示進行推理的成本非常高,而且隨著您添加的每一個單詞,成本會以二次方的方式變得更加難以承受。這就是所謂的「二次注意力瓶頸」。然而,代碼似乎已經被破解了;Google[170]Meta 的新研究[171]表明,二次瓶頸已不複存在。

      一旦 PDF 的長度可以無限長,Ask Your PDF 就是一款很棒的應用程序,但現在百萬個標記窗口可以實現一些新東西,而十萬個標記窗口則無法實現:「 Ask My Life [172]」類別的應用程序。我不確定 GPT-5 的上下文窗口大小是多少,但考慮到像 Magic 這樣的年輕初創公司似乎已經通過數百萬個標記窗口取得了巨大的成果——並且考慮到 Altman 明確提到個性化是必備的 AI 功能——OpenAI 至少必須匹配這個賭注。

      可靠性

      可靠性是懷疑論者的最愛。我認為 LLM 不可靠(例如幻覺)是人們認為生成式 AI 的價值主張不夠清晰以至於無法獲得報酬的主要原因之一[173],也是增長停滯[174]使用停滯的原因[175],也是一些專家認為它們是一種「有趣的消遣[176]」而不是提高生產力[177](即使可以,也並不總是很順利[178])的原因。這並不是每個人對 LLM 的體驗,但它足夠突出,以至於公司不應該否認可靠性是他們需要解決的問題(特別是如果他們希望人類使用這項技術來幫助解決高風險類別的案件)。

      可靠性是任何科技產品的關鍵,那麼為什麼這些大型人工智能模型很難做到這一點呢?我發現一個有助於理解這一點的概念是,像 GPT-5 這樣的東西既不是發明也不是發現。它們最好被描述為被發現的發明。即使是更接近構建現代人工智能的人(更不用說用戶或投資者)也不知道如何解釋輸入查詢並獲得輸出後模型內部發生的事情。(機械可解釋性是一個針對這一問題的熱門研究領域,但仍處於早期階段。如果你對此感興趣,請閱讀Anthropic 的作品。)[179]

      就好像 GPT-5 及其同類是先進文明遺留下來的古老設備,而我們恰好在考古矽片挖掘中偶然發現了它們。它們是我們發現的發明,現在我們正試圖弄清楚它們是什麼、它們如何工作,以及如何使它們的行為可解釋和可預測。我們所認為的不可靠性僅僅是對文物理解不夠的後續後果。這就是為什麼儘管公司在客戶流失和企業疑慮方面損失了數百萬美元,但這個缺陷仍未得到解決。

      OpenAI 正試圖通過重重護欄 (RLHF)、測試和紅隊測試讓 GPT-5 更加可靠和安全。這種方法存在缺點。如果我們接受我上面解釋的觀點,即人工智能無法推理是因為「抽樣可以證明知識的存在,但不能證明知識的缺失[180]」,我們就可以將同樣的想法應用於安全測試:抽樣可以證明安全漏洞的存在,但不能證明漏洞的缺失。這意味著無論 OpenAI 進行多少測試,他們都無法確定他們的模型在越獄[181]對抗性攻擊[182]即時注入方面是完全可靠或完全安全的[183]

      OpenAI 會改善 GPT-5 的可靠性、幻覺和外部攻擊媒介嗎?GPT-3 → GPT-4 的軌跡表明他們會的[184]。他們會解決這些問題嗎?別指望它了。

      代理

      在我看來,這一部分是整篇文章中最有趣的部分。到目前為止,我所寫的所有內容都以某種方式對 AI 代理(特別強調推理)很重要。最大的問題是:GPT-5 是否具有代理能力,還是會像之前的 GPT 版本一樣,成為一個可以做很多事情但不能製定計劃並採取行動實現目標的標準語言模型?這個問題之所以重要,是因為我將以下三個原因分解如下:首先,代理對於智能的重要性怎麼強調也不為過。其次,我們知道這種代理的原始版本在某種程度上是可能的。第三,OpenAI 一直在研究 AI 代理。

      許多人認為,自主性(即利用現有資源,隨著時間的推移,自主推理、計劃和行動以達到某個目標的能力)是法學碩士和人類級人工智能之間的缺失環節。自主性比純粹的推理更能成為智能的標誌。正如我們上面所看到的,推理是實現目標的第一步,也是任何智能代理的關鍵能力,但還不夠。在現實世界中計劃和行動(對於人工智能來說,模擬環境可以很好地作為初步近似)是所有人類都具備的技能。我們很早就開始以一種展現針對預定目標進行順序推理的能力的方式與世界互動。起初,它是無意識的,不涉及推理(例如哭鬧的幼兒),但隨著我們的成長,它變成了一個複雜而有意識的過程。

      解釋為什麼主動性是智能的必需品,而真空推理卻沒有多大用處的一種方法是通過顯性知識隱性知識之間的差異。讓我們想像一個強大的推理能力強的人工智能,它可以被動地體驗和感知世界(例如物理專家人工智能)。閱讀網絡上的所有書籍將使人工智能能夠吸收並創建大量顯性知識(知道什麼),這些知識可以形式化、轉移並寫在紙上和書上。然而,無論人工智能在物理方面有多聰明,它仍然缺乏將所有這些公式和方程式應用於例如確保為昂貴的引力波探測實驗提供資金的能力。

      為什麼?因為這需要瞭解世界的社會經濟結構,並將這些知識應用於不確定的新情況和許多可變因素。這種應用概括能力超出了任何書本所能涵蓋的範圍。這就是隱性知識(訣竅);只有通過實踐和直接從已經知道如何做的人那裡學習才能學到。10[185]底線是:如果人工智能不首先獲得專門技術/隱性知識,那麼無論其純推理能力有多強,它都無法發揮有用的代理作用並實現目標。11[186]

      為了獲得訣竅,人類會做一些事情。但是,要以一種有助於學習和理解的方式「做」,就需要遵循行動計劃,以通過反饋循環、實驗、工具使用以及將所有這些與現有知識庫相結合的方式實現目標(這就是 AlphaZero 所做的超越模仿學習的有針對性的推理的目的)。因此,對於代理來說,推理是一種達到目的的手段,而不是目的本身(這就是為什麼它在真空中毫無用處)。推理提供了新的顯性知識,然後人工智能代理可以使用這些知識來計劃和行動,以獲取實現複雜目標所需的隱性知識。這是智能的精髓;這是人工智能的終極形式。

      這種代理智能與 GPT-4、Claude 3、Gemini 1.5 或 Llama 3 等 LLM 形成鮮明對比,這些 LLM 無法令人滿意地執行計劃(早期基於 LLM 的代理嘗試,如BabyAGI[187]AutoGPT[188]失敗的自主性實驗[189]就是證據)。當前最好的 AI 是亞代理,或者用或多或少官方的術語來說,它們是AI 工具Gwern 在 AI 工具與 AI 代理二分法方面有很好的資源[190])。

      那麼,我們如何從 AI 工具轉變為能夠推理、計劃和行動的 AI 代理?OpenAI 能否縮小 GPT-4(AI 工具)與 GPT-5(潛在的 AI 代理)之間的差距?要回答這個問題,我們需要回顧 OpenAI 目前對代理的關注和信念,並考慮是否有一條從那裡開始的道路。特別是,OpenAI 似乎確信 LLM(或更一般的 token 預測算法 (TPA),這是一個總體術語,包括其他模態的模型,例如 DALL-E、Sora 或語音引擎)足以實現 AI 代理。

      如果我們相信 OpenAI 的立場,我們首先需要回答另一個問題:人工智能代理能否從 TPA 中誕生,從而繞過對隱性知識甚至手工推理特徵的需求?12[191]

      這些問題背後的原理是,一個偉大的人工智能預測器/模擬器(理論上是可能的)必須以某種方式開發出一個內部世界模型,才能做出準確的預測。這樣的預測器只需深入瞭解世界是如何運作的,就可以繞過獲取隱性知識的需要。例如,你不是從書本上學會騎單車的,你必須騎它,但如果你能以任意高的細節水平預測接下來會發生什麼,這可能足以讓你在第一次騎行和所有後續騎行中都準確無誤。人類做不到這一點,所以我們需要練習,但人工智能可以嗎?十三[192]在介紹 AI 代理的真實示例(包括 OpenAI 正在開展的工作)之前,讓我們先對此進行一些闡述。

      標記預測算法 (TPA) 非常強大。它如此強大,以至於整個現代生成式人工智能都建立在這樣一個前提上:足夠強大的 TPA 可以發展智能。14[193]GPT-4、Claude 3、Gemini 1.5 和 Llama 3 都是 TPA。Sora 是一個 TPA(其創造者稱「將通過模擬一切實現 AGI [194]」)。Voice Engine[195]Suno[196]是 TPA。即使是像Figure 01 [197](「影片輸入,軌跡輸出[198]」)和Voyager [199](使用 GPT-4 的 AI Minecraft 玩家)這樣不太可能的例子也本質上是 TPA。但純粹的 TPA 可能並不是解決所有問題的最佳解決方案。例如,DeepMind 的AlphaGo[200]AlphaZero[201]不是 TPA,而是我在「推理」部分中所說的強化學習、搜索和深度學習的巧妙結合。

      一個智能的 AI 代理能否從像 GPT-4 一樣訓練的 GPT-5 中脫穎而出,成為 TPA?還是說,要讓 GPT-5 成為代理,OpenAI 需要找到一個完全不同的功能來優化,甚至找到一個新的架構?(好得多的)GPT-4 最終能否發展出代理能力,還是 AI 代理需要完全不同?OpenAI 早期成功背後的科學頭腦 Ilya Sutskever對 TPA 的力量毫不懷疑:[202]

      …當我們訓練一個大型神經網絡來準確預測來自互聯網的大量不同文本中的下一個單詞時……我們正在學習一個世界模型……表面上看,我們只是在學習文本中的統計相關性,但事實證明,為了「僅僅學習」文本中的統計相關性,為了很好地壓縮它們,神經網絡學習的是生成文本的過程的一些表示。這個文本實際上是世界的投影……這就是通過準確預測下一個單詞所學到的東西。

      Sora 的創造者之一 Bill Peebles在最近的一次演講中更進一步[203]

      隨著我們繼續擴展這一範式 [TPA],我們認為它最終必須模擬人類的思維方式。要生成具有真正逼真的動作序列的真正逼真的影片,唯一的方法是擁有一個關於所有物體、人類等環境如何運作的內部模型。

      您可能不認同這種觀點,但我們可以放心地推斷 Sutskever 和 Peebles 的觀點,以瞭解 OpenAI 內部的爭論除外,他們的觀點是一致的。如果成功,這種方法將推翻人工智能需要捕捉隱性知識或特定推理機制來規劃和行動以實現目標並變得智能的想法。也許它只是一路上的代幣。

      我不認同 OpenAI 的觀點,原因之一是:他們沒有繞過隱性知識的挑戰。他們只是把它轉移到了其他地方。現在的問題不是學習推理、計劃和行動,而是模擬世界。他們想要解決的實際上是預知問題[204]。Peebles 對此的討論非常隨意,以至於它看起來並不重要。但是,創建一個完美的預測器 / 模擬器不是比創建一個可以在世界上計劃和行動的實體更難嗎?是否有可能創建一個可以模擬「真正逼真的動作序列」的人工智能,正如 Peebles 在他的演講中所聲稱的那樣?我不這麼認為——我不認為我們可以做到這一點,而且我認為我們無論如何都無法評估這種能力。也許 OpenAI 對 Bitter Lesson 的信任和依賴太過分了(或者也許我錯了,我們拭目以待)。

      無論如何,如今人工智能公司的選擇非常有限——儘管 Yann LeCun一直在[205]嘗試[206],但沒有人知道如何構建計劃/行動系統——因此,無論他們喜歡與否,他們都以 LLM 的形式使用基於轉換器的 TPA(包括 OpenAI)來應對代理挑戰,因為這是他們掌握的最佳技術。讓我們從現有的原型開始,然後跳到我們對 OpenAI 的努力的瞭解。

      除了我上面分享的例子(例如 BabyAGI、AutoGPT、Voyager 等)之外,還有其他基於 LLM 的代理嘗試。第一個引起我注意的是 pre-ChatGPT。2022 年 9 月,Adept AI 宣佈了他們所謂的 Action Transformer 的第一個版本[207]這是一個「通過觀看人們的影片來訓練使用數字工具的大型變壓器」。他們發佈了一些演示[208],但僅此而已。一年前,兩位聯合創始人離開了公司[209],這根本不是一個好兆頭(The Information 報導稱[210],Adept 正準備在夏天推出一款 AI 代理。我們拭目以待)。另一家最近加入 AI 代理淘金熱的年輕初創公司是 Cognition AI,它最知名的是作為「第一位 AI 軟件工程師」 Devin的創造者[211](它現在有一個開源表親OpenDevin [212])。一開始還算順利,但後來,一則名為「揭穿 Devin 的真面目[213]」的評論影片曝光後迅速走紅,揭露了 Cognition 對 Devin 能力的過度炒作。結果呢?Cognition 不得不公開承認,Devin 的能力不足以「通過接手繁瑣的 Upwork 任務賺錢[214]」。

      那些都是純粹的軟件代理。還有另一個分支,誠然,更難實現:AI 代理設備。最著名的例子是Rabbit R1[215]Humane AI Pin。R1[216]的評論即將發佈[217],所以我們會等待它們(大約在這篇文章計劃發佈的同一天)。Humane AI Pin 的評論上週已經發佈,它們絕對是毀滅性的。

      只需知道,考慮到上述所有證據,結論是,基於 LLM 的 AI 代理尚未實現。OpenAI 能做得更好嗎?

      人工智能代理」變成一個「包羅萬象的術語」,而不是放棄自己的雄心壯誌或迎接技術挑戰。OpenAI的 Ben Newhouse 表示,[218]他們正在打造「一款可能成為行業定義的從零到一的產品,利用我們即將推出的模型中最新和最優秀的技術」。我們拭目以待。

      作為本節關於代理的總結,我認為 OpenAI 尚未準備好通過其最大的版本向 AI 代理邁進。還有很多工作要做。儘管 TPA 是目前唯一可能的解決方案(直到我上面描述的推理挑戰得到解決),但它本身還不足以實現人們所追求的代理能力,以至於人們會考慮將它們用於嚴肅的項目。

      我敢打賭,GPT-5 將會像我們之前見過的一樣,是一個多模態法學碩士——如果你願意的話,可以說是一個改進的 GPT-4。它周圍很可能是 GPT-4 中尚不存在的系統,包括連接到 AI 代理模型以在互聯網和設備上執行自主操作的能力(但這與人類般的 AI 代理的真正夢想相去甚遠)。雖然多模態、推理、個性化和可靠性是系統的特徵(它們都將在 GPT-5 中得到改進),但代理是一個完全不同的實體。GPT-5 不需要成為代理即可享受代理的力量。它很可能是一種原始的「AI 代理管理器」,也許是我們一致認可的第一個這樣的管理器。

      OpenAI 將在產品層面整合 GPT-5 和 AI 代理,以試水。他們也不會同時發佈 GPT-5 和 AI 代理群(作為先例,GPT-4 和 GPT-4V 曾分離過一段時間)。我認為 OpenAI 認為代理能力比「僅僅」更好的多模態 LLM 更難控制,因此他們將更慢地推出 AI 代理。讓我強調一下Newhouse的上述引言[219],以清楚說明我為什麼相信這一點:「我們正在構建……可能成為行業定義的從零到一的產品,該產品將利用我們即將推出的**模型中最新和最出色的功能 [重點是我的]。」一款利用即將推出的模型(GPT-5)中最出色功能的產品(AI 代理)。

      結束語

      就是這樣了。

      希望能幫助你更好地理解 GPT-5 本身(一旦它發佈,我們就會得到完整的圖景),還能幫助你更好地思考這些事情、為實現這一目標必須協調運作的許多部分,以及為更好地瞭解未來所必需的許多考慮因素。

      引用鏈接

      [1] GPT-3: https://arxiv.org/abs/2005.14165

      [2] LaMDA : https://blog.google/technology/ai/lamda/

      [3] OPT : https://ai.meta.com/blog/democratizing-access-to-large-scale-language-models-with-opt-175b/

      [4] MT-NLG : https://www.microsoft.com/en-us/research/blog/using-deepspeed-and-megatron-to-train-megatron-turing-nlg-530b-the-worlds-largest-and-most-powerful-generative-language-model/

      [5] GPT-4 : https://openai.com/research/gpt-4

      [6] 比爾蓋茨等業內人士: https://the-decoder.com/bill-gates-does-not-expect-gpt-5-to-be-much-better-than-gpt-4/

      [7] GPT-5 類模型: https://www.thealgorithmicbridge.com/i/143486801/the-gpt-class-of-models

      [8] GPT-5 還是 GPT-4.5?: https://www.thealgorithmicbridge.com/i/143486801/gpt-or-gpt

      [9] GPT品牌陷阱: https://www.thealgorithmicbridge.com/i/143486801/the-gpt-brand-trap

      [10] OpenAI 何時發佈 GPT-5?: https://www.thealgorithmicbridge.com/i/143486801/when-will-openai-release-gpt

      [11] GPT-5 會有多好?: https://www.thealgorithmicbridge.com/i/143486801/how-good-will-gpt-be

      [12] OpenAI 的目標如何塑造 GPT-5: https://www.thealgorithmicbridge.com/i/143486801/how-openais-goals-shape-gpt

      [13] GPT-5 和縮放定律的統治: https://www.thealgorithmicbridge.com/i/143486801/gpt-and-the-ruling-of-the-scaling-laws

      [14] 模型大小: https://www.thealgorithmicbridge.com/i/143486801/model-size

      [15] 數據集大小: https://www.thealgorithmicbridge.com/i/143486801/dataset-size

      [16] 計算: https://www.thealgorithmicbridge.com/i/143486801/compute

      [17] 我對 GPT-5 大小的估計: https://www.thealgorithmicbridge.com/i/143486801/my-estimate-for-gpt-s-size

      [18] GPT-5 的算法突破: https://www.thealgorithmicbridge.com/i/143486801/algorithmic-breakthroughs-in-gpt

      [19] 多模態: https://www.thealgorithmicbridge.com/i/143486801/multimodality

      [20] 機器人: https://www.thealgorithmicbridge.com/i/143486801/robotics

      [21] 推理: https://www.thealgorithmicbridge.com/i/143486801/reasoning

      [22] 個性化: https://www.thealgorithmicbridge.com/i/143486801/personalization

      [23] 可靠性: https://www.thealgorithmicbridge.com/i/143486801/reliability

      [24] 代理: https://www.thealgorithmicbridge.com/i/143486801/agents

      [25] Meta Llama 3 405B也是 GPT-4 級: https://ai.meta.com/blog/meta-llama-3/

      [26] 性能而言,這三款產品都差不多: https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard

      [27] GPT-4 渦輪升級之後: https://twitter.com/OpenAI/status/1777772582680301665

      [28] 不再如此: https://twitter.com/lmsysorg/status/1778555678174663100

      [29] 1: https://www.thealgorithmicbridge.com/p/gpt-5-everything-you-need-to-know#footnote-1-143486801

      [30] Gemini Advanced (帶有 1.0 Ultra 後端): https://blog.google/products/gemini/bard-gemini-advanced-app/

      [31] Gemini 1.5 : https://blog.google/technology/ai/google-gemini-next-generation-model-february-2024/

      [32] 它已經是 GPT-4 級的了: https://twitter.com/OriolVinyalsML/status/1782780613537178105

      [33] 考慮到1.0 Pro 和 1.0 Ultra 之間: https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf

      [34] 構建模型的團隊: https://www.theinformation.com/articles/googles-demis-hassabis-chafes-under-new-ai-push

      [35] Google經常失敗的營銷部分的團隊: https://www.thealgorithmicbridge.com/p/google-gemini-anti-whiteness-disaster

      [36] GPT-4.5 已泄露: https://the-decoder.com/openais-gpt-4-5-turbo-leaked-on-search-engines-and-could-launch-in-june/

      [37] 消息: https://www.reddit.com/r/OpenAI/comments/1bd0l8b/gpt_45_turbo_confirmed/

      [38] YOLO 運行: https://twitter.com/_jasonwei/status/1757486124082303073

      [39] 他希望加倍進行迭代部署: https://youtu.be/jvqFAi7vkBc?t=3912

      [40] 而不是一個棘手的演示: https://twitter.com/Google/status/1732467423654105330

      [41] 2: https://www.thealgorithmicbridge.com/p/gpt-5-everything-you-need-to-know#footnote-2-143486801

      [42] 自回歸陷阱: https://twitter.com/random_walker/status/1683208798700449792

      [43] 商標註冊所: https://uspto.report/TM/98233550

      [44] 因為將其錨定在過去而自我破壞自己的未來: https://www.thealgorithmicbridge.com/p/a-chatgpt-moment-for-everything

      [45] Lex Fridman 採訪了 Sam Altman : https://youtu.be/jvqFAi7vkBc

      [46] GPT-5 的發佈日期: https://youtu.be/jvqFAi7vkBc?t=3973

      [47] 補充說: https://youtu.be/jvqFAi7vkBc?t=3992

      [48] 還表示,: https://youtu.be/jvqFAi7vkBc?t=4018

      [49] 不向世界發佈令人震驚的更新: https://youtu.be/jvqFAi7vkBc?t=3926

      [50] 這甚至可以解釋最新的 GPT-4 turbo 版本(4 月 9 日): https://twitter.com/OpenAI/status/1777772582680301665

      [51] 消息人士稱,OpenAI 預計將在年中為其聊天機器人發佈‘實質性改進’的 GPT-5 : https://archive.is/k2SuH

      [52] 據兩位知情人士透露,由Sam Altman: https://archive.is/o/k2SuH/https://www.businessinsider.com/openai-insiders-describe-sam-altmans-leadership-2023-12

      [53] -4 於 2022 年 8 月完成訓練: https://cdn.openai.com/papers/gpt-4.pdf#page=42

      [54] 微軟的 Bing Chat 已經在後台運行 GPT-4。Bing : https://blogs.bing.com/search/march_2023/Confirmed-the-new-Bing-runs-on-OpenAI’s-GPT-4

      [55] AI 驅動的政治宣傳的先例,OpenAI 肯定不會那麼魯莽: https://www.wsj.com/politics/how-i-built-an-ai-powered-self-running-propaganda-machine-for-105-e9888705

      [56] 3: https://www.thealgorithmicbridge.com/p/gpt-5-everything-you-need-to-know#footnote-3-143486801

      [57] (: https://www.mk.co.kr/news/it/10924466

      [58] 有點糟糕: https://youtu.be/jvqFAi7vkBc?t=2703

      [59] 更聰明: https://youtu.be/jvqFAi7vkBc?t=5332

      [60] 通過 Howie Xu: https://twitter.com/H0wie_Xu/status/1745657992459272423

      [61] 告訴 Business Insider : https://archive.is/k2SuH

      [62] 他說的是: https://youtu.be/jvqFAi7vkBc?t=2740

      [63] 評估是有問題的: https://www.thealgorithmicbridge.com/i/141137119/the-virtues-of-an-independent-chatbot-arena

      [64] SWE-bench: https://www.swebench.com/

      [65] ARC : https://github.com/fchollet/ARC

      [66] GPT-4 在 SWE-bench 上: https://twitter.com/jyangballin/status/1775114444370051582

      [67] GPT-3 在 ARC 上: https://twitter.com/fchollet/status/1636054491480088823

      [68] GPT-4 在 ARC 上: https://community.openai.com/t/gpt-4-and-the-arc-challenge/168955

      [69] SAT、Bar、AP : https://www.businessinsider.com/list-here-are-the-exams-chatgpt-has-passed-so-far-2023-1#gpt-4-has-a-shot-at-passing-the-cfa-exam-but-chatgpt-not-a-chance-1

      [70] 沒有被汙染: https://twitter.com/cHHillee/status/1635790330854526981

      [71] 非線性的「指數」縮放定律: https://arxiv.org/abs/2001.08361

      [72] 1.8T 個參數: https://www.thealgorithmicbridge.com/p/gpt-4s-secret-has-been-revealed

      [73] 參數數量只是: https://arxiv.org/abs/2203.15556

      [74] 宣稱的目標是 AGI : https://openai.com/blog/planning-for-agi-and-beyond

      [75] 製造人們想要的東西: https://paulgraham.com/good.html

      [76] 以前那麼獨家了: https://www.spglobal.com/marketintelligence/en/news-insights/latest-news-headlines/microsoft-further-diversifies-its-ai-bets-80641945

      [77] 不得不放棄一個代號為「Arrakis」的項目: https://www.theinformation.com/articles/openai-dropped-work-on-new-arrakis-ai-model-in-rare-setback

      [78] 2023 年中期那麼嚴重: https://www.thealgorithmicbridge.com/p/the-gpu-shortage-has-forced-ai-companies

      [79] 互聯網數據短缺: https://archive.is/76W8c

      [80] 數據中心短缺以及對: https://www.theinformation.com/articles/microsoft-and-openai-plot-100-billion-stargate-ai-supercomputer

      [81] 新算法的: https://www.thealgorithmicbridge.com/i/135959842/companies-looking-beyond-current-algorithms

      [82] 一種經驗形式的擴展定律: https://arxiv.org/abs/2001.08361

      [83] DeepMind 將這些定律: https://towardsdatascience.com/a-new-ai-trend-chinchilla-70b-greatly-outperforms-gpt-3-175b-and-gopher-280b-408b9b4510

      [84] 存在爭議: https://arxiv.org/abs/2404.10102

      [85] 奧爾特曼在 2023 年聲稱: https://www.youtube.com/watch?v=T5cPoNwO7II&feature=youtu.be

      [86] 放棄規模,其中之一: https://twitter.com/gdb/status/1750558864469299622

      [87] OpenAI 將 GPT-4 變成了多模態模型: https://www.thealgorithmicbridge.com/p/gpt-4s-secret-has-been-revealed

      [88] 4: https://www.thealgorithmicbridge.com/p/gpt-5-everything-you-need-to-know#footnote-4-143486801

      [89] Richard Sutton 在《苦澀的教訓》中的建議: http://www.incompleteideas.net/IncIdeas/BitterLesson.html

      [90] 1.17 億: https://www.makeuseof.com/gpt-models-explained-and-compared/

      [91] 15 億: https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf

      [92] 1.75 億: https://arxiv.org/abs/2005.14165

      [93] 1.8 萬億: https://www.semianalysis.com/p/gpt-4-architecture-infrastructure

      [94] 2-5T 參數: https://lifearchitect.ai/gpt-5/#summary

      [95] GPT-5 早在 11 月就已開始訓練: https://www.ft.com/content/dd9ba2f6-f509-42f0-8e97-4271c7b84ded

      [96] 在一個月前仍在進行中,: https://archive.is/k2SuH

      [97] 它仍在學習)。: https://ai.meta.com/blog/meta-llama-3/

      [98] 12-13: https://archive.is/76W8c

      [99] 萬億個 token: https://www.semianalysis.com/p/gpt-4-architecture-infrastructure

      [100] 多達 100 萬億個 token 來改進它——如果他們找到: https://arxiv.org/pdf/2203.15556.pdf

      [101] 收集這麼多 token: https://twitter.com/ylecun/status/1750614681209983231

      [102] 違反 YouTube 的服務條款: https://www.bloomberg.com/news/articles/2024-04-04/youtube-says-openai-training-sora-with-its-videos-would-break-the-rules

      [103] 已經是一種常見的做法: https://www.ft.com/content/053ee253-820e-453a-a1d5-0f24985258de

      [104] 耗盡: https://www.youtube.com/watch?v=ZPPBujNssnU

      [105] 還不是 AGI : https://www.thealgorithmicbridge.com/i/142204815/the-agi-has-been-achieved-trap

      [106] 2: https://www.databricks.com/blog/coreweave-nvidia-h100-part-1

      [107] 4 倍: https://lambdalabs.com/blog/nvidia-h100-gpu-deep-learning-performance-analysis

      [108] 他希望後者的效率提高 10 倍: https://youtu.be/1egAKCKPKCk?t=1511

      [109] 2: https://lambdalabs.com/blog/flashattention-2-lambda-cloud-h100-vs-a100#h100-vs-a100-results

      [110] 8 倍: https://developer.nvidia.com/blog/nvidia-hopper-architecture-in-depth/

      [111] 並行配置: https://www.semianalysis.com/i/143439831/inference-parallelism-techniques-pipeline-parallelism-tensor-parallelism-expert-parallelism-and-data-parallelism

      [112] 另一種可能性是,考慮到 OpenAI不斷改進 GPT-4 ,: https://twitter.com/OpenAI/status/1777772582680301665

      [113] ChatGPT 的使用率並沒有增長: https://substack.com/@exponentialview/note/c-52677620

      [114] 5: https://www.thealgorithmicbridge.com/p/gpt-5-everything-you-need-to-know#footnote-5-143486801

      [115] 以下是我們可以期待的提示: https://www.reddit.com/r/OpenAI/comments/1bz6qwj/sam_altman_reveals_whats_next_for_ai/

      [116] 6: https://www.thealgorithmicbridge.com/p/gpt-5-everything-you-need-to-know#footnote-6-143486801

      [117] 7: https://www.thealgorithmicbridge.com/p/gpt-5-everything-you-need-to-know#footnote-7-143486801

      [118] 多模態性還是一個夢想: https://www.thealgorithmicbridge.com/i/108431509/multimodality-the-first-good-multimodal-large-language-model

      [119] 是他們無法承受的: https://www.thealgorithmicbridge.com/p/why-ai-is-doomed-without-neuroscience

      [120] 人類實際上還有更多: https://www.newscientist.com/article/mg18524841-600-senses-special-doors-of-perception/

      [121] 動物擁有而我們沒有的那些模式: https://www.discovermagazine.com/planet-earth/the-5-senses-animals-have-that-humans-dont

      [122] Voice Engine: https://openai.com/blog/navigating-the-challenges-and-opportunities-of-synthetic-voices

      [123] 宣佈了 Sora : https://openai.com/sora

      [124] The Information 報導: https://www.theinformation.com/articles/googles-demis-hassabis-chafes-under-new-ai-push?rc=j0xnsg

      [125] 藝術家: https://openai.com/blog/sora-first-impressions

      [126] TED中測試第一印象: https://twitter.com/TEDTalks/status/1781351036877156452

      [127] 其中可能包括 OpenAI Sora : https://www.theverge.com/2024/4/15/24130804/adobe-premiere-pro-firefly-video-generative-ai-openai-sora

      [128] 與 Figure 的合作: https://www.businessinsider.com/openai-bets-big-on-humanoid-robots-with-figure-ai-2024-2

      [129] 花哨演示: https://twitter.com/coreylynch/status/1767927194163331345

      [130] 我最有信心但不太為人工智能圈接受的觀點: https://towardsdatascience.com/artificial-intelligence-and-robotics-will-inevitably-merge-4d4cd64c3b02

      [131] Michell 寫了一篇關於一般智力的科學評論: https://www.science.org/doi/10.1126/science.ado7069

      [132] 表明: https://barsaloulab.org/Online_Articles/2020-Barsalou-Jour_Cognition-challenges_opportunities.pdf

      [133] 社會: https://www.science.org/doi/10.1126/science.1146282

      [134] 文化: https://doi.org/10.1017/S0140525X21001710

      [135] 放棄它: https://venturebeat.com/business/openai-disbands-its-robotics-research-team/

      [136] 影片生成將通過模擬一切而導致 AGI : https://twitter.com/agihouse_org/status/1776827897892024734

      [137] 莫拉維克悖論: https://en.wikipedia.org/wiki/Moravec’s_paradox

      [138] 莫拉維克悖論: https://en.wikipedia.org/wiki/Moravec’s_paradox

      [139] 任務: https://twitter.com/jyangballin/status/1775114444370051582

      [140] 問題: https://community.openai.com/t/gpt-4-and-the-arc-challenge/168955

      [141] 流體智力: https://en.wikipedia.org/wiki/Fluid_and_crystallized_intelligence

      [142] 以極其有限的方式」進行推理,用 Altman 的話來說。(在: https://youtu.be/PkXELH6Y2lM?t=315

      [143] MMLU: https://arxiv.org/pdf/2009.03300v3.pdf

      [144] BIG-bench: https://github.com/google/BIG-bench

      [145] 抽樣可以證明知識的存在,但不能證明知識的缺失: https://gwern.net/gpt-3-nonfiction#common-sense-knowledge

      [146] ARC 挑戰等問題上的絕對: https://github.com/fchollet/ARC

      [147] 8: https://www.thealgorithmicbridge.com/p/gpt-5-everything-you-need-to-know#footnote-8-143486801

      [148] DeepMind 的 AlphaGo Zero就是以 100-0: https://deepmind.google/discover/blog/alphago-zero-starting-from-scratch/

      [149] AlphaGo: https://deepmind.google/technologies/alphago/

      [150] DeepMind 已經測試了這種方法: https://arxiv.org/abs/2107.05407

      [151] Bengio: https://youtu.be/T3sxeTgT4qc

      [152] Yann LeCun: https://youtu.be/vyqXLJsmsrk

      [153] AlphaZero: https://deepmind.google/discover/blog/alphazero-shedding-new-light-on-chess-shogi-and-go/

      [154] MuZero : https://deepmind.google/discover/blog/muzero-mastering-go-chess-shogi-and-atari-without-rules/

      [155] 已經有了這方面的一些成果: https://www.thealgorithmicbridge.com/i/133160725/gemini-a-multimodal-chatgpt-alphago

      [156] 對 Q* 的猜測: https://www.theinformation.com/articles/openai-made-an-ai-breakthrough-before-altman-firing-stoking-excitement-and-concern?rc=j0xnsg

      [157] 說: https://twitter.com/polynoamial/status/1676971503261454340

      [158] 最近在紅杉資本 (Sequoia) 的一次演講: https://youtu.be/c3b-JASoPi0

      [159] Shane Legg: https://youtu.be/qulfo6-54k0

      [160] 著名的第 37 步: https://www.wired.com/2016/03/sadness-beauty-watching-googles-ai-play-go/

      [161] 搜索能力引入 LLM: https://github.com/spcl/graph-of-thoughts

      [162] 在遊戲中推廣自我對弈: https://www.science.org/doi/10.1126/sciadv.adg3256

      [163] Yann LeCun 表示,: https://twitter.com/ylecun/status/1728126868342145481

      [164] Altman 在董事會鬧劇中被解僱前一天關於 Q* 的言論的批評: https://youtu.be/ZFFvqRemDv8?t=805

      [165] 的評論表明,: https://twitter.com/futuristflower/status/1778029932490166613

      [166] 最新的 GPT-4 turbo 版本: https://twitter.com/OpenAI/status/1777772582680301665

      [167] Information 報導稱: https://www.theinformation.com/articles/openai-made-an-ai-breakthrough-before-altman-firing-stoking-excitement-and-concern

      [168] 9: https://www.thealgorithmicbridge.com/p/gpt-5-everything-you-need-to-know#footnote-9-143486801

      [169] Magic : https://twitter.com/Justin_Halford_/status/1776864908950348268

      [170] Google: https://arxiv.org/html/2404.07143v1

      [171] Meta 的新研究: https://arxiv.org/abs/2404.08801

      [172] Ask My Life : https://twitter.com/amasad/status/1777016914763817061

      [173] 獲得報酬的主要原因之一: https://twitter.com/abacaj/status/1773485186270814319

      [174] 增長停滯: https://substack.com/@exponentialview/note/c-52677620

      [175] 使用停滯的原因: https://archive.is/5MhEo

      [176] 有趣的消遣: https://twitter.com/rbhar90/status/1772052483965153453

      [177] 不是提高生產力: https://twitter.com/fchollet/status/1772069855912747406

      [178] 並不總是很順利: https://www.theregister.com/2024/03/28/ai_bots_hallucinate_software_packages/

      [179] Anthropic 的作品。): https://www.anthropic.com/news/decomposing-language-models-into-understandable-components

      [180] 抽樣可以證明知識的存在,但不能證明知識的缺失: https://gwern.net/gpt-3-nonfiction#common-sense-knowledge

      [181] 越獄: https://www.anthropic.com/research/many-shot-jailbreaking

      [182] 對抗性攻擊: https://web.stanford.edu/class/cs329t/slides/llm_attacks.pdf

      [183] 即時注入方面是完全可靠或完全安全的: https://www.lesswrong.com/posts/bNCDexejSZpkuu3yz/you-can-use-gpt-4-to-create-prompt-injections-against-gpt-4

      [184] GPT-3 → GPT-4 的軌跡表明他們會的: https://twitter.com/emollick/status/1772327253872988513

      [185] 10: https://www.thealgorithmicbridge.com/p/gpt-5-everything-you-need-to-know#footnote-10-143486801

      [186] 11: https://www.thealgorithmicbridge.com/p/gpt-5-everything-you-need-to-know#footnote-11-143486801

      [187] BabyAGI: https://github.com/yoheinakajima/babyagi

      [188] AutoGPT: https://github.com/Significant-Gravitas/AutoGPT

      [189] 失敗的自主性實驗: https://futurism.com/business-chatgpt-green-gadget-guru-fate

      [190] Gwern 在 AI 工具與 AI 代理二分法方面有很好的資源: https://gwern.net/tool-ai

      [191] 12: https://www.thealgorithmicbridge.com/p/gpt-5-everything-you-need-to-know#footnote-12-143486801

      [192] 十三: https://www.thealgorithmicbridge.com/p/gpt-5-everything-you-need-to-know#footnote-13-143486801

      [193] 14: https://www.thealgorithmicbridge.com/p/gpt-5-everything-you-need-to-know#footnote-14-143486801

      [194] 將通過模擬一切實現 AGI : https://twitter.com/agihouse_org/status/1776827897892024734

      [195] Voice Engine: https://openai.com/blog/navigating-the-challenges-and-opportunities-of-synthetic-voices

      [196] Suno: https://suno.com/

      [197] Figure 01 : https://www.figure.ai/

      [198] 影片輸入,軌跡輸出: https://twitter.com/adcock_brett/status/1743987597301399852

      [199] Voyager : https://voyager.minedojo.org/

      [200] AlphaGo: https://deepmind.google/technologies/alphago/

      [201] AlphaZero: https://deepmind.google/discover/blog/alphazero-shedding-new-light-on-chess-shogi-and-go/

      [202] 毫不懷疑:: https://www.youtube.com/watch?t=668&v=GI4Tpi48DlA&feature=youtu.be

      [203] 在最近的一次演講中更進一步: https://twitter.com/agihouse_org/status/1776827897892024734

      [204] 預知問題: https://en.wikipedia.org/wiki/Precognition

      [205] 無論如何,如今人工智能公司的選擇非常有限——儘管 Yann LeCun一直在: https://openreview.net/pdf?id=BZ5a1r-kVsf

      [206] 嘗試: https://ai.meta.com/blog/yann-lecun-ai-model-i-jepa/

      [207] ,: https://www.thealgorithmicbridge.com/p/act-1-how-adept-is-building-the-future

      [208] 一些演示: https://www.adept.ai/blog/act-1

      [209] 兩位聯合創始人離開了公司: https://www.theinformation.com/briefings/two-co-founders-of-adept-an-openai-rival-suddenly-left-to-start-another-company

      [210] The Information 報導稱: https://www.theinformation.com/articles/to-unlock-ai-spending-microsoft-openai-and-google-prep-agents?rc=j0xnsg

      [211] Devin的創造者: https://twitter.com/cognition_labs/status/1767548763134964000

      [212] OpenDevin : https://github.com/OpenDevin/OpenDevin

      [213] 揭穿 Devin 的真面目: https://youtu.be/tNmgmwEtoWE

      [214] 接手繁瑣的 Upwork 任務賺錢: https://youtu.be/UTS2Hz96HYQ

      [215] Rabbit R1: https://www.rabbit.tech/

      [216] Humane AI Pin。R1: https://humane.com/

      [217] 即將發佈: https://twitter.com/jessechenglyu/status/1780656156144496924

      [218] 的 Ben Newhouse 表示,: https://twitter.com/newhouseb/status/1750631406043320391

      [219] Newhouse的上述引言: https://twitter.com/newhouseb/status/1750631406043320391