Anthropic CEO 發萬字檄文:DeepSeek 崛起,白宮應加碼管製
就在剛剛,美國的另一家 AI 巨頭 Anthropic 的 CEO – Dario Amodei 發表了一篇長達萬字的深度分析報告。報告核心觀點:DeepSeek 的突破,更加印證了美國對華芯片出口管製政策的必要性和緊迫性。
![](http://n.sinaimg.cn/spider20250130/272/w1080h792/20250130/d5d2-2d3287dd5d5de7094c44eea5b9fb7121.png)
先補充下前提,這幾天,DeepSeek 刷屏、刷屏、再刷屏。
並在新春之際,給歐美股市帶來了一抹中國紅(暴跌)
![](http://n.sinaimg.cn/spider20250130/130/w1080h650/20250130/fea1-b733b9e7c59b3521e67ff9d8fa87d7f5.jpg)
賽博禪心在此前也通過多個緯度,對此進行了一系列報導:
順道著…昨天淩晨,Qwen 也發了大貨:
我們回過頭來看看 Dario Amodei 這篇報告,裡面首先肯定了 DeepSeek 的技術突破:其最新模型在特定基準測試中已逼近美國頂尖水平,模型訓練效率提升顯著,並嘗試將中國 AI 進步納入全球技術演進坐標系進行定位,從三個維度:
-
算力規模定律: 指出中國超大規模算力基建的持續投入,正在重塑全球 AI 研發的地緣格局。國家級數字基礎設施的戰略佈局,為中國企業突破”算力鴻溝”提供了底層支撐。
-
效率躍遷曲線: 強調全球 AI 行業正經歷訓練成本指數級下降的技術革命。DeepSeek 的成本控制突破,本質上是把握技術演進窗口期的戰略成果。
-
範式革新動能: 著重分析中國團隊在強化學習等新興訓練範式中的創新實踐,揭示後發者通過技術路線創新實現彎道超車的可能性。
基於此,Dario Amodei 的結論頗具啟示性:DeepSeek 的突破絕非孤立現象,而是中國科技創新體系系統性進化的產物。儘管報告刻意淡化”顛覆性創新”的敘事,但字裡行間對中國 AI 發展勢能的警惕已躍然紙上。
在政策維度,報告劍指芯片出口管製的戰略困境。Dario Amodei 坦承,DeepSeek 的突破正在倒逼美國重新評估技術封鎖政策的有效性。這種政策層面的連鎖反應,恰印證了中國 AI 突圍對全球技術秩序的重構效應。其核心論斷直指要害——算力霸權已成為 AI 競賽的勝負手,而中國在自主可控產業鏈建設方面的進展,正在動搖傳統技術封鎖的邏輯基礎。
報告同時指出,在國家安全與技術發展間,需要尋求動態平衡,這也是當下全球的時代命題:當技術演進速度,已超越政策調整速度,如何在開放與風控中建立新範式,已成為關鍵中的關鍵。
需要說一下,Dario Amodei 是前 OpenAI 的研究員,後來離開 OpenAI 後成立其直接競爭對手 Anthropic。這篇報告在保持學術矜持的表象下,已然承認中國 AI 崛起的事實,也預示著創新格局正在發生範式轉變——從單一中心的技術輻射,向多極共生的生態演進。
文章發佈在 Dario Amodei 的個人博客:https://darioamodei.com/on-deepseek-and-export-controls
我把它也翻譯成了中文,如下:
關於 DeepSeek 與出口管製
幾週前,我曾撰文呼籲美國應加強對華芯片出口管製。此後不久,中國人工智能公司 DeepSeek 便成功地——至少在某些方面——以更低的成本,實現了與美國頂尖人工智能模型相近的性能水平。
在此,我暫且不討論 DeepSeek 是否對 Anthropic 等美國人工智能企業構成威脅(儘管我認為許多關於 DeepSeek 威脅美國人工智能領導地位的說法被嚴重誇大了)。
我更關注的是,DeepSeek 的成果發佈是否削弱了芯片出口管製政策的合理性。我的看法是否定的。事實上,我認為 DeepSeek 的進展反而令出口管製政策顯得比一週前更具存在意義上的重要性。
出口管製服務於一個至關重要的目標:確保民主國家在人工智能發展中保持領先地位。需要明確的是,出口管製並非逃避美中競爭的手段。最終,如果美國和其他民主國家的 AI 公司想要勝出,就必須開發出比中國更卓越的模型。但是,在力所能及的情況下,我們不應將技術優勢拱手讓給中國。
人工智能發展的三大動態
在闡述我的政策主張之前,我將先介紹理解人工智能系統至關重要的三個基本動態:
規模定律 (Scaling laws)。 人工智能的一個特性——我和我的聯合創始人在 OpenAI 工作時就率先記錄了這一特性——即在其他條件相同的情況下,擴大人工智能系統的訓練規模,能夠全面且平滑地提升其在各種認知任務上的表現。
例如,一個耗資 100 萬美元的模型可能解決 20%的重要編程任務,一個耗資 1000 萬美元的模型可能解決 40%,一個耗資 1 億美元的模型可能解決 60%,以此類推。這些差異在實踐中往往具有巨大的影響——十倍的性能提升可能相當於本科生和博士生技能水平之間的差距——因此,各公司都在大力投資於訓練這些模型。
曲線偏移 (Shifting the curve)。 人工智能領域不斷湧現各種大大小小的創新理念,旨在提高效率或效能。這些創新可能體現在模型架構的改進上(例如對當今所有模型都採用的 Transformer 基礎架構進行微調),也可能僅僅是更高效地在底層硬件上運行模型的方法。
新一代硬件的出現也具有相同的效果。這些創新通常會使成本曲線發生偏移:如果某項創新帶來了 2 倍的「算力倍增效應」(CM),那麼原本需要花費 1000 萬美元才能完成 40%編程任務,現在只需 500 萬美元即可實現;原本需要 1 億美元才能完成 60%的任務,現在只需 5000 萬美元,以此類推。每一家前沿人工智能公司都會定期發現許多這樣的算力倍增效應:小型創新(約 1.2 倍)時有發生,中型創新(約 2 倍)也偶有出現,而大型創新(約 10 倍)則較為罕見。
由於擁有更智能系統的價值極高,這種曲線偏移通常會導致公司在模型訓練上投入更多而非更少的資金:成本效率的提升最終完全用於訓練更智能的模型,唯一製約因素僅為公司的財務資源。人們自然而然地傾向於「先貴後賤」的思維模式——彷彿人工智能是一種質量恒定的單一事物,當它變得更便宜時,我們就會用更少的芯片來訓練它。但關鍵在於規模曲線:當曲線偏移時,我們只是更快地沿著曲線前進,因為曲線盡頭的價值實在太高了。
2020 年,我的團隊發表了一篇論文,指出算法進步帶來的曲線偏移約為每年 1.68 倍。此後,這個速度可能已顯著加快;而且這還沒有考慮效率和硬件的進步。我估計今天的數字可能約為每年 4 倍。此處還有另一項估計。訓練曲線的偏移也會帶動推理曲線的偏移,因此,多年來,在模型質量保持不變的情況下,價格大幅下降的情況一直都在發生。例如,Claude 3.5 Sonnet 的 API 價格比原版 GPT-4 低約 10 倍,但其發佈時間比 GPT-4 晚了 15 個月,且在幾乎所有基準測試中都優於 GPT-4。
範式轉變 (Shifting the paradigm)。 有時,被規模化的底層事物會發生細微變化,或者在訓練過程中會加入一種新的規模化方式。在 2020 年至 2023 年期間,主要的規模化對像是預訓練模型:即使用越來越多的互聯網文本進行訓練,並在其基礎上進行少量其他訓練的模型。
2024 年,使用強化學習(RL)訓練模型生成思維鏈的想法已成為新的規模化重點。Anthropic、DeepSeek 和許多其他公司(或許最引人注目的是 OpenAI,他們在 9 月份發佈了 o1-preview 模型)都發現,這種訓練方式極大地提高了模型在某些特定、可客觀衡量的任務上的性能,例如數學、編程競賽以及與這些任務相似的推理。這種新範式包括首先使用普通的預訓練模型,然後在第二階段使用強化學習來添加推理技能。
重要的是,由於這種類型的強化學習是全新的,我們仍處於規模曲線的早期階段:所有參與者在第二階段(強化學習階段)的投入都很少。投入 100 萬美元而不是 10 萬美元就足以獲得巨大的收益。各公司目前都在迅速努力將第二階段的投入規模擴大到數億美元甚至數十億美元,但至關重要的是要理解,我們正處在一個獨特的「交叉點」,即存在一種強大的新範式,它正處於規模曲線的早期階段,因此可以迅速取得重大進展。
DeepSeek 的模型
上述三個動態可以幫助我們理解 DeepSeek 近期發佈的模型。大約一個月前,DeepSeek 發佈了一個名為「DeepSeek-V3」的模型,這是一個純粹的預訓練模型——即上述第三點中描述的第一階段。上週,他們又發佈了「R1」,在 V3 的基礎上增加了第二階段。從外部無法完全瞭解這些模型的全部信息,但以下是我對這兩次發佈的最佳理解。
DeepSeek-V3 實際上是真正的創新所在,一個月前就應該引起人們的注意(我們當然注意到了)。作為一款預訓練模型,它在某些重要任務上的表現似乎已接近美國最先進的模型水平,但訓練成本卻大大降低(不過,我們發現,特別是 Claude 3.5 Sonnet 在某些其他關鍵任務上,例如實際編程方面,仍然明顯更勝一籌)。DeepSeek 團隊通過一些真正令人印象深刻的創新實現了這一點,這些創新主要集中在工程效率方面。特別是在名為「鍵值緩存 (Key-Value cache)」的某一方面管理以及推動「混合專家 (mixture of experts)」方法更進一步的應用上,取得了創新性的改進。
然而,有必要進行更深入的分析:
DeepSeek 並未「以 600 萬美元的成本實現了美國人工智能公司數十億美元投入的效果」。我只能代表 Anthropic 發言,Claude 3.5 Sonnet 是一款中等規模的模型,訓練成本為數千萬美元(我不會給出確切數字)。此外,3.5 Sonnet 的訓練方式與任何規模更大或成本更高的模型無關(與某些傳言相反)。Sonnet 的訓練是在 9-12 個月前進行的,而 DeepSeek 的模型是在 11 月/12 月訓練的,但 Sonnet 在許多內部和外部評估中仍然顯著領先。因此,我認為一個公正的說法是:「DeepSeek 生產出了一款性能接近美國 7-10 個月前模型的模型,成本大幅降低(但遠未達到人們所說的比例)」。
如果成本曲線的歷史下降趨勢約為每年 4 倍,這意味著在正常的商業進程中——在 2023 年和 2024 年發生的歷史成本下降等正常趨勢下——我們預計現在會出現一款比 3.5 Sonnet/GPT-4o 便宜 3-4 倍的模型。
由於 DeepSeek-V3 的性能不如那些美國前沿模型——假設在規模曲線上落後約 2 倍,我認為這對於 DeepSeek-V3 來說已經相當慷慨了——這意味著,如果 DeepSeek-V3 的訓練成本比美國一年前開發的現有模型低約 8 倍,那將是完全正常、完全符合「趨勢」的。我不會給出具體數字,但從前一點可以清楚地看出,即使你完全相信 DeepSeek 宣稱的訓練成本,他們的表現充其量也只是符合趨勢,甚至可能還達不到。例如,這遠不如最初的 GPT-4 到 Claude 3.5 Sonnet 的推理價格差異(10 倍),而 3.5 Sonnet 是一款比 GPT-4 更出色的模型。
總而言之,DeepSeek-V3 並非一項獨特的突破,也並非從根本上改變了大型語言模型 (LLM) 的經濟性;它只是持續成本降低曲線上一個預期的點。這次的不同之處在於,第一個展示預期成本降低的公司是中國公司。這在以前從未發生過,並且具有地緣政治意義。然而,美國公司很快也會效仿——而且他們不會通過複製 DeepSeek 來做到這一點,而是因為他們也在實現通常的成本降低趨勢。
DeepSeek 和美國人工智能公司都比以往擁有更多的資金和更多的芯片來訓練其明星模型。額外的芯片用於研發支持模型背後的理念,有時也用於訓練尚未準備就緒(或需要多次嘗試才能成功)的更大模型。有報導稱——我們無法確定其真實性——DeepSeek 實際上擁有 50,000 塊 Hopper 架構的芯片,我猜這與美國主要人工智能公司擁有的芯片數量在 2-3 倍的差距內(例如,比 xAI 的 「Colossus」 集群少 2-3 倍)。這 50,000 塊 Hopper 芯片的成本約為 10 億美元。因此,DeepSeek 作為一家公司的總支出(與訓練單個模型的支出不同)與美國人工智能實驗室的支出並沒有天壤之別。
值得注意的是,「規模曲線」分析有些過於簡化,因為模型在某種程度上是存在差異的,並且各有優缺點;規模曲線數字是一個粗略的平均值,忽略了許多細節。我只能談談 Anthropic 的模型,但正如我上面暗示的那樣,Claude 在編程和與人進行良好設計的互動風格方面非常出色(很多人用它來尋求個人建議或支持)。在這些以及一些額外的任務上,DeepSeek 完全無法與之相提並論。這些因素在規模數字中並未體現出來。
上週發佈的 R1 模型引發了公眾的廣泛關注(包括英偉達股價下跌約 17%),但從創新或工程角度來看,它遠不如 V3 有趣。R1 模型增加了第二階段的訓練——強化學習,在前一節的第 3 點中對此進行了描述——並且基本上複製了 OpenAI 在 o1 模型中所做的工作(他們似乎處於相似的規模,結果也相似)。然而,由於我們正處於規模曲線的早期階段,只要它們從強大的預訓練模型起步,多家公司就有可能生產出這種類型的模型。在 V3 的基礎上生產 R1 模型的成本可能非常低廉。因此,我們正處於一個有趣的「交叉點」,暫時會出現多家公司都能生產出優秀的推理模型的情況。但隨著所有公司在這種模型的規模曲線上進一步前進,這種情況將迅速消失。
出口管製
以上所有內容都只是我主要關注話題——對華芯片出口管製——的鋪墊。根據上述事實,我對當前形勢的看法如下:
即使曲線週期性地發生偏移,訓練特定智能水平模型的成本迅速下降,但各公司在訓練強大人工智能模型上的支出卻持續增加。這僅僅是因為訓練更智能模型的經濟價值實在太大了,以至於任何成本上的節省幾乎都立即被抵消——它們被重新投入到製造更智能的模型中,花費的仍然是最初計劃支出的巨額資金。DeepSeek 開發的效率創新,如果美國實驗室尚未發現,也將很快被美國和中國實驗室應用於訓練數十億美元的模型。這些模型將比他們之前計劃訓練的數十億美元模型性能更優——但他們仍然會花費數十億美元。這個數字將繼續上升,直到我們達到人工智能在幾乎所有事情上都比幾乎所有人類更智能的程度。
製造出在幾乎所有事情上,都比幾乎所有人類更智能的人工智能,將需要數百萬塊芯片、數百億美元(至少),並且最有可能在 2026-2027 年實現。DeepSeek 的成果發佈並沒有改變這一點,因為它們大致符合一直被納入這些計算的預期成本降低曲線。
這意味著在 2026-2027 年,我們可能會最終進入兩個截然不同的世界之一。在美國,多家公司肯定會擁有所需的數百萬塊芯片(以數百億美元的成本)。問題是中國是否也能獲得數百萬塊芯片?
如果中國能夠做到,我們將生活在一個兩極世界中,美國和中國都將擁有強大的人工智能模型,這將導致科學和技術的飛速發展——我稱之為「數據中心裡的天才之國」。兩極世界不一定會無限期地保持平衡。即使美國和中國在人工智能系統方面勢均力敵,中國似乎也更有可能將更多的才能、資本和關注力投入到該技術的軍事應用中。結合其龐大的工業基礎和軍事戰略優勢,這可能有助於中國在全球舞台上取得支配地位,不僅在人工智能領域,而且在所有領域。
如果中國無法獲得數百萬塊芯片,我們將(至少暫時)生活在一個單極世界中,只有美國及其盟友擁有這些模型。單極世界是否會持久尚不清楚,但至少存在一種可能性,即由於人工智能系統最終可以幫助製造更智能的人工智能系統,暫時的領先優勢可能會轉化為持久的優勢。因此,在這個世界中,美國及其盟友可能會在全球舞台上取得支配且持久的領先地位。
有效執行的出口管製是唯一能夠阻止中國獲得數百萬塊芯片的手段,因此也是我們最終會進入單極世界還是兩極世界的最重要決定因素。
DeepSeek 的出色表現並不意味著出口管製失敗。正如我上面所述,DeepSeek 擁有相當數量的芯片,因此他們能夠開發並訓練出一個強大的模型並不令人意外。他們的資源約束程度並不比美國人工智能公司高多少,出口管製也不是導致他們「創新」的主要因素。他們只是非常有才華的工程師,並表明中國是美國的一個強大競爭對手。
DeepSeek 也不能證明中國總能通過走私獲得所需的芯片,或者證明管製措施總是存在漏洞。我不認為出口管製的目的曾經是阻止中國獲得數萬塊芯片。10 億美元的經濟活動可以被掩蓋,但 1000 億美元甚至 100 億美元的經濟活動卻很難隱藏。數百萬塊芯片在物理上也可能難以走私。
審視一下目前報導的 DeepSeek 擁有的芯片也具有啟發意義。根據 SemiAnalysis 的說法,這是一個由 H100、H800 和 H20 組成的混合體,總計 5 萬塊。H100 自發佈以來就受到出口管製禁令的限制,因此如果 DeepSeek 擁有任何 H100,那一定是走私來的(請注意,英偉達已聲明 DeepSeek 的進展「完全符合出口管製規定」)。H800 在 2022 年最初的出口管製措施下是允許的,但在 2023 年 10 月管製措施更新時被禁止,因此這些芯片可能是在禁令之前發貨的。H20 的訓練效率較低,采樣效率較高——並且仍然是允許出口的,儘管我認為應該禁止出口。
總而言之,DeepSeek 人工智能芯片艦隊的很大一部分似乎是由以下芯片組成:尚未被禁止的芯片(但應該被禁止);在被禁止之前發貨的芯片;以及一些非常可能走私來的芯片。這表明出口管製實際上正在發揮作用並不斷調整:漏洞正在被堵塞;否則,他們很可能擁有全部由頂級的 H100 組成的芯片艦隊。如果我們能夠足夠快地堵塞漏洞,我們或許能夠阻止中國獲得數百萬塊芯片,從而增加美國領先的單極世界出現的可能性。
考慮到我對出口管製和美國國家安全的關注,我想明確一點。我不認為 DeepSeek 本身是對手,重點也不是專門針對他們。在他們接受的採訪中,他們看起來像是聰明的、充滿好奇心的研究人員,只是想創造有用的技術。
如果中國能夠在人工智能領域與美國匹敵,這個他們會是令人恐慌的。出口管製是我們阻止這種情況發生的最有力工具之一,認為技術變得更強大、性價比更高就應該放鬆出口管製,這種想法根本毫無道理。