Lex Fridman 五小時播客實錄:中美 AI 競爭與國運

今天早上,Lex Fridman 發佈了一個頗有深度的播客,總長約 5 個小時。

原影片在這個地方:https://www.youtube.com/watch?v=_1f-o0nqpEI&ab_channel=LexFridman

在這個對談中,Lex Fridman 與半導體分析專家 Dylan Patel(SemiAnalysis 創始人)和人工智能研究科學家 Nathan Lambert(艾倫人工智能研究所)展開對話,深入探討 DeepSeek AI 及其開源模型 V3 和 R1,以及由此引發的 AI 發展地緣政治競爭,特別是中美在 AI 芯片和技術出口管製領域的博弈。

對話嘉賓介紹

  • Lex Fridman: 麻省理工學院人工智能研究員,播客《Lex Fridman Podcast》主持人,專注於深度學習和自動駕駛研究。

  • Dylan Patel: SemiAnalysis 創始人,專注於半導體、GPU、CPU 和通用 AI 硬件研究分析。

  • Nathan Lambert: 艾倫人工智能研究所研究科學家,AI 博客 Interconnects 博主。

我做了一個全文翻譯,非常值得一讀。但這篇翻譯超 10 萬字,超出了公眾號文章的最大長度,所以我把它做成了一份 PDF,公眾號里回覆 Lex459可獲得該 pdf。

本文則是對這 10 萬字內容的要點總結,俗稱「量子速讀」

對話內容「量子速讀」

DeepSeek 時刻

在對話開始時,Lex Fridman 簡要評價了 OpenAI 新發佈的 o3-mini 推理模型,認為其性能與 DeepSeek-R1 相似,但 R1 模型具備思維鏈推理能力和開源特性,而 o3-mini 則不具備。Lex 認為,DeepSeek 的出現是 AI 發展史上的一個重要時刻,具有地緣政治和技術雙重意義。

DeepSeek-R1 和 DeepSeek-V3 模型詳解

  • DeepSeek-V3: DeepSeek 公司推出的開源混合專家 Transformer 語言模型,屬於指令模型,類似於 ChatGPT。

  • DeepSeek-R1: DeepSeek 推出的推理模型,與 V3 在訓練步驟上有很多重疊,但採用了全新的推理訓練方法。

開源權重模型

  • 開源權重 指的是語言模型的權重數據公開在互聯網上,供人下載和使用。

  • 開源許可證 規定了模型的使用條款,不同模型可能採用不同的許可證。

  • 真正的開源 應該包括發佈訓練數據、公開訓練代碼和開源模型權重。

  • DeepSeek 的模型是目前最開放的前沿模型之一,開源權重並採用寬鬆的 MIT 許可證。

  • 開源權重模型 允許用戶在離線環境下運行模型,完全掌控數據,避免數據泄露風險。

預訓練與後訓練

  • 預訓練: 模型通過預測海量互聯網文本數據中的下一個 token,學習語言的通用規律,得到基礎模型。

  • 後訓練: 在預訓練模型基礎上,進行指令微調、偏好微調(RLHF)和強化微調等,使模型具備更符合人類期望的行為。

  • 指令微調: 使模型理解和響應指令。

  • 偏好微調 (RLHF): 使模型的回覆更符合人類的閱讀偏好。

  • 強化微調: 應用於推理模型,通過強化學習技術提升模型在可驗證領域的性能,例如數學和編程。

DeepSeek-V3 和 DeepSeek-R1 用戶體驗差異

  • DeepSeek-V3: 快速生成 token,輸出類似 Reddit 或 Stack Overflow 的高質量答案。

  • DeepSeek-R1: 先輸出思維鏈過程,解釋和分解問題,再給出最終答案,允許用戶看到模型推理過程。

DeepSeek 低訓練成本分析

  • 混合專家模型 (MoE): 模型中不同的部分被激活處理不同任務,降低訓練和推理成本。DeepSeek 模型參數量巨大 (超 6000 億),但每次只激活一部分參數 (約 370 億)。

  • 潛在注意力 (MLA): DeepSeek 發明的新技術,用於減少推理過程中的內存佔用,提高效率。

  • 低級優化: DeepSeek 深入 CUDA 層以下進行 GPU 優化,提高 GPU 利用效率。

混合專家模型 (MoE) 詳解

  • 稠密模型: 生成每個 token 時,模型的每一個參數或神經元都會被激活。

  • 專家混合模型: 每次只激活模型中一部分專家,降低計算成本。

  • Transformer 架構中的 MoE: 主要應用於 Transformer 架構中的前饋神經網絡模塊,顯著提高參數利用率。

  • DeepSeek MoE 的創新: 採用極高的稀疏因子,從 256 個專家中激活 8 個,提高了效率和複雜性,但也增加了負載均衡和通信調度的挑戰。

  • 輔助損失: MoE 模型中常用的一種機制,用於平衡各個專家的使用率。DeepSeek MoE 可能改進了路由機制,擺脫了輔助損失。

「苦澀的教訓」 與 AI 發展方向

  • 「苦澀的教訓」核心思想: 在深度學習領域,最終勝出的方法是具有可擴展性的學習和搜索方法,避免引入過多的人為先驗知識。

  • 未來發展方向: 後訓練領域可能會迎來更多突破,低級別優化和高級算法層面都至關重要。DeepSeek 的創新是技術突破,也可能預示著未來發展的大方向。

  • YOLO 運行 (You Only Live Once): 在進行大規模訓練前,進行大量實驗和消融研究,然後 All-in,進行大規模訓練。2025 年可能是 YOLO 運行之年,各實驗室都在全力衝刺。

DeepSeek 計算集群

  • High-Flyer 對衝基金背景: DeepSeek 的母公司 High-Flyer 是一家對衝基金,長期從事量化交易,擁有大量 GPU 資源。

  • DeepSeek 早期集群規模: 2021 年宣稱擁有 10,000 個 A100 GPU,用於量化交易模型和自然語言處理任務。

  • DeepSeek 當前 GPU 規模預估: SemiAnalysis 估計 DeepSeek 實際擁有的 GPU 數量可能接近 50,000 個,用於多種任務。

  • DeepSeek V3 訓練成本: 論文公開只使用了 2,000 個 H800 GPU 進行 V3 模型的預訓練。

  • 計算資源對比: DeepSeek 的計算資源在全球範圍內名列前茅,僅次於 OpenAI、Anthropic 等少數公司,但規模仍小於 Meta (約 6-10 萬 H100 等效 GPU)。

中國 GPU 出口管製

  • Hopper 架構與 H100/H800/H20:

    • H100: Hopper 架構 GPU,高性能,但對中國出口管製。

    • H800: 為中國市場定製的 H100 閹割版,FLOPS 性能與 H100 相當,但互連帶寬降低,後被禁止出口。

    • H20: H800 被禁後,Nvidia 推出新款芯片,僅在 FLOPS 方面有所削減,但互連帶寬保持不變,甚至在內存帶寬和容量方面有所提升,目前允許對中國出口。

  • 出口管製政策目的: 減緩中國 AI 技術發展速度,限制中國獲得構建 AGI 所需的大規模訓練運行所需的計算資源規模和密度,限制中國 AI 應用的普及程度,而非完全阻止中國 AI 技術發展。

  • 出口管製的影響: 可能限制中國 AI 應用的普及程度,但無法完全阻止中國訓練先進 AI 模型。DeepSeek V3 證明即使在有限的 GPU 資源下,中國團隊仍能在 AI 前沿領域取得突破。

  • 計算資源差距的累積效應: 美國希望保持計算資源差距,以確保在 AI 領域保持領先優勢。出口管製策略旨在保持技術差距,限制中國 AI 應用的普及程度,最終影響經濟效益、軍事能力和生產力提升。

推理模型與出口管製

  • 推理模型的重要性: R1 和 o1 等推理模型的出現,大幅提升推理在複雜任務中的重要性,加大對計算資源的需求。

  • 推理計算成本高昂: OpenAI o3 解決 ARC-AGI 任務,每個問題計算成本約為 5-20 美元。大規模推理服務需要部署大量 GPU。

  • 出口管製限制中國 AI 應用普及: 即使中國能獲得一定數量的 GPU,但難以像美國公司那樣擁有數十萬甚至數百萬 GPU 支持大規模推理服務。

AGI 時間表預測

  • Dario Amodei 預測: 2026 年將出現超級 AI,可能構成安全威脅。

  • Nathan Lambert 預測: 2030 年或稍晚,未來幾年會持續出現快速進展,但難以預測具體時間。

  • Dylan Patel 預測: 某些 AGI 能力已實現,但大規模部署成本高昂,AGI 到來是一個漸進過程,可能在 2027-2028 年左右。

  • AGI 定義: 語言模型本身就是一種 AGI,但 AI 公司的目標是更具自主性的 AI,能夠獨立完成任務。

  • 超級 AI: Dario 認為的超級人工智能,一旦掌握,就能對其他國家構成重大軍事和地緣政治優勢的技術。

  • AI 軍事應用: 達里奧擔心中國可能比美國更快地將 AGI 應用於軍事領域,尤其是在無人機等非對稱武器領域。

中國的製造能力與 GPU 出口管製

  • 中國工業能力: 中國擁有強大的工業能力,可快速建設數據中心和電力基礎設施,但芯片製造更專業。

  • 出口管製時機把握: 出口管製旨在阻止中國獲得尖端芯片,但如果時機把握錯誤,可能促使中國加大芯片自主研發力度,最終超越美國。

  • 中國 YOLO 戰略: 如果中國最高層決定 all-in AI 領域,可能比美國更快地建設大規模數據中心。出口管製旨在限制中國獲得最先進的美國芯片,延緩其 AI 發展速度。

  • 半導體限制目的: 限制中國人工智能發展和技術軍民融合。

與中國的冷戰與台灣問題

  • DeepSeek 時刻與冷戰開端: DeepSeek 的崛起可能標誌著中美 AI 冷戰的開始。

  • 出口管製與台灣風險: 出口管製可能促使中國對台灣採取軍事行動,以獲取半導體制造能力。

  • 和平與貿易的世界秩序: 全球霸主或地區霸主的存在往往帶來相對和平,但權力轉移過程可能引發衝突。

  • 美國策略: 控制 AI 技術,維持全球霸主地位。

台積電與台灣

  • 台積電在半導體產業中的地位: 全球最大的芯片代工廠,掌握最先進的芯片製造工藝。

  • 代工模式的成功: 規模經濟效應,降低芯片製造成本,促進芯片專業化和多樣化。

  • 台灣對台積電的重要性: 人才、職業道德、專注度等文化因素,以及政府支持。

  • 美國能否複製台積電模式: 技術上可以,但文化、成本等方面存在挑戰。需要政府支持和長期投入。

  • 台積電的脆弱性: 研發中心集中在台灣新竹、俄勒岡州高治斯伯勒和南韓平澤,易受地緣政治風險影響。

  • 半導體供應鏈安全: 沒有台積電,全球汽車、電子產品等產業將受到巨大沖擊。

美中關係未來走向

  • 分化趨勢: 中美關係持續分化,美國限制對華技術出口,中國也採取反製措施。

  • 獨立經濟體的未來: 出口管製可能導致中美走向經濟脫鉤,形成獨立的經濟體。

  • 避免戰爭與分化: 分化可能無法避免戰爭,全球霸主地位的維持可能帶來相對和平,但多極化格局下,世界秩序面臨挑戰。

  • 美國策略與 AI 霸主地位: 美國希望通過控制 AI 技術維持全球霸主地位。

最佳 AI GPU

  • GPU 三個關鍵維度: 浮點運算性能 (FLOPS)、內存帶寬和內存容量、互連。

  • 出口管製與 GPU 性能: 美國出口管製主要限制 FLOPS,H20 在 FLOPS 方面有所削減,但在內存和互連方面與 H100 相當甚至更優,更適合推理任務。

  • H20 產量預期下調: Nvidia 大幅削減 H20 產量預期,可能預感到 H20 將受到進一步限制。

  • 推理模型與內存重要性: 推理模型對內存需求更高,內存帶寬和容量成為關鍵指標。

KV 緩存與推理成本

  • KV 緩存: 注意力機制的關鍵組件,存儲先前 token 的壓縮表示,用於加速推理。

  • 注意力機制的內存成本: 與上下文長度成二次方關係,長上下文推理對內存需求巨大。

  • 預填充與輸出 token 成本差異: 預填充可以並行處理,成本較低;輸出 token 自回歸生成,成本較高,且內存需求隨序列長度增加而快速增長。

  • 推理模型內存瓶頸: 長上下文推理模型對內存需求巨大,限制了批次大小和可服務用戶數量,導致推理成本倍增。

DeepSeek 低推理成本原因

  • 模型架構創新: MLA 技術顯著降低注意力機制的內存佔用。

  • OpenAI 高利潤率: OpenAI 推理服務毛利率超過 75%,導致定價偏高。

  • DeepSeek 高效率: 模型架構和底層優化帶來效率優勢,降低服務成本。

  • DeepSeek 服務能力有限: DeepSeek GPU 資源有限,API 服務能力不足,可能無法大規模盈利。

  • 對衝基金補貼: DeepSeek 可能由母公司 High-Flyer 對衝基金補貼運營。

  • 招聘工具: 開源和低成本可能作為 DeepSeek 的招聘策略。

DeepSeek 是否使用了 OpenAI 數據

  • 蒸餾 (Distillation): 使用更強大的模型生成數據,訓練自己的模型,是 AI 領域的常見做法。

  • OpenAI 指控 DeepSeek 使用其 API: OpenAI 聲稱有證據表明 DeepSeek 使用其模型進行訓練,可能違反服務條款。

  • 道德和法律爭議: 使用互聯網數據訓練 AI 模型存在版權和倫理爭議,OpenAI 的指控可能存在雙重標準。

  • 蒸餾的普遍性: 很多公司都在使用蒸餾技術,包括 Meta 和其他 AI 初創公司。

  • DeepSeek 模型自稱 ChatGPT: 互聯網上 OpenAI 輸出內容氾濫,模型可能學習到相關信息,導致誤判。

  • 商業間諜活動: 工業間諜活動在科技領域普遍存在,想法比代碼和數據更容易竊取。

AI 巨型集群建設

  • 巨型集群定義: 大規模 GPU 集群,電力容量達到吉瓦級別,用於模型訓練。

  • 集群規模競賽: 各 AI 巨頭競相建設巨型集群,規模不斷擴大,電力需求激增。

  • 電力需求激增: AI 數據中心電力消耗快速增長,可能佔美國總用電量的 10% 甚至更高。

  • 集群電力規模: GPT-4 時代集群功耗 15-20 兆瓦,現在已達 150 兆瓦,未來 Stargate 項目將達 2.2 吉瓦。

  • 集群關鍵要素: 電力供應、散熱冷卻、高速互連。

  • 冷卻技術: 從風冷轉向液冷,提高散熱效率和芯片密度。

  • 集群規模排名: 埃隆·馬斯克集群規模最大 (20 萬 GPU),Meta、OpenAI 集群規模約 10 萬 GPU。未來集群規模將達數十萬甚至百萬 GPU。

  • 集群用途: 主要用於模型訓練,特別是後訓練和強化學習。

  • 傑文斯悖論: AI 技術進步降低推理成本,反而刺激 AI 應用和算力需求激增。

NVIDIA 的地位與競爭

  • NVIDIA 股價下跌: DeepSeek R1 發佈引發市場對 AI 模型成本降低的擔憂,導致 NVIDIA 股價下跌,但長期來看,AI 發展對 NVIDIA 仍是利好。

  • NVIDIA 領先地位: NVIDIA 在 GPU 硬件和軟件生態方面仍保持領先優勢,短期內難以被撼動。

  • AMD 的挑戰: AMD GPU 硬件有競爭力,但軟件生態落後,短期內難以挑戰 NVIDIA。

  • Google TPU: Google TPU 性能強勁,但主要服務於 Google 內部業務,未對外銷售,無法與 NVIDIA 競爭 GPU 市場。

  • 英特爾的困境: 英特爾在芯片製造工藝和市場競爭方面面臨嚴峻挑戰,亟需轉型和創新。

誰將贏得 AGI 競賽?

  • 競爭格局: Google、Meta、xAI/特斯拉、OpenAI、Anthropic 等 AI 公司都在積極參與 AGI 競賽。

  • OpenAI 的優勢與挑戰: OpenAI 模型技術領先,商業化走在前列,但缺乏其他業務支撐,盈利模式單一,面臨被 「商品化」 的風險。

  • Meta 的優勢: 擁有龐大用戶群體和廣告業務,可將 AI 技術應用於現有產品和服務,提升用戶體驗和盈利能力。

  • Google X/xAI/特斯拉的優勢: Google 擁有基礎設施優勢,xAI/特斯拉可將 AI 技術應用於機器人等領域。

  • AGI 競賽並非 「贏者通吃」: 未來可能有多家 AI 公司並存,不同公司在 AI 領域找到各自的定位和盈利模式。

  • AI 廣告的潛力: AI 聊天機器人可能成為新的廣告平台,通過自然對話植入廣告,帶來巨大商業價值。

  • AI 的未來方向: AI 的真正價值在於任務自動化、AI 代理、機器人技術和計算機使用自動化等領域,而不僅僅是聊天應用和 API 服務。

AI Agent 的前景展望

  • AI Agent 的定義: 更開放、更自主的 AI 系統,能夠獨立解決任務,並適應不確定性。

  • AI 能力等級劃分: 聊天 (Level 1)、推理 (Level 2)、Agent (Level 3)。目前 AI 正處於 Level 2 向 Level 3 過渡階段。

  • Agent 實現的挑戰: 可靠性、泛化能力、與開放世界交互的複雜性。

  • Agent 應用場景: 特定領域自動化任務(如網站導航、數據處理)、計算機使用自動化、機器人遠程操作等。

  • Agent 商業機會: API 服務、垂直領域應用、Agent 輔助人工操作等。

  • 沙盒環境與 Agent 訓練: 研究人員已構建網站複製環境用於 Agent 訓練,未來有望逐步擴展到更開放的環境。

AI 在編程領域的應用

  • AI 提升軟件開發效率: AI 代碼補全、代碼生成工具已廣泛應用,顯著提高程序員生產力。

  • 軟件工程基準測試: SWE-bench 等基準測試顯示 AI 代碼能力快速提升。

  • 軟件工程 Agent 的潛力: AI Agent 有望實現軟件開發自動化,降低軟件工程成本。

  • 軟件工程師的角色轉變: 程序員將從代碼編寫者轉變為 AI 系統主管和合作夥伴,更側重於架構設計、調試和領域專業知識。

  • AI 賦能各行業專家: AI 技術可應用於工業工程、化工、機械等領域,提升各行業專家工程師的工作效率。

  • AI 對軟件工程的影響: 軟件工程師需求增長曲線可能趨於平緩,但不會立刻失業,未來軟件工程領域將迎來變革。

開源 AI 的未來

  • Tülu 模型: 艾倫人工智能研究所發佈的開源後訓練方案,基於 Llama 模型,目標是創建完全開源且高性能的語言模型。

  • 開源後訓練的優勢: 促進技術普及和創新,降低模型定製成本,推動 AI 生態系統發展。

  • DeepSeek R1 開源的意義: 首個以開源權重和商業友好許可證發佈的前沿模型,推動開源 AI 運動發展。

  • 開源 AI 的挑戰: 缺乏完善的反饋循環,訓練成本高昂,難以追趕前沿水平。

  • 開放語言模型 (OLMo) 項目: 艾倫人工智能研究所推動的完全開源語言模型項目,目標是實現數據、代碼、模型權重全開源。

  • 開源 AI 的商業價值: 探索開源 AI 的商業模式,建立圍繞開源 AI 的生態系統,可能成為未來 AI 發展的重要方向。

星際之門 (Stargate) 項目

  • Stargate 項目規模: OpenAI 和 Oracle 合作建設的巨型數據中心,第一階段電力容量 2.2 吉瓦,服務器成本 50-60 億美元,總擁有成本 1000 億美元。

  • 特朗普政府的政策支持: 放鬆監管,加速數據中心建設審批流程。

  • 資金來源: Oracle、軟銀、OpenAI 等,但資金尚未完全落實。

  • Stargate 項目的意義: 預示著 AI 基礎設施建設進入吉瓦時代,可能引發新一輪 AI 軍備競賽。

  • AI 基礎設施建設的未來: 巨型數據中心建設將成為 AI 發展的關鍵驅動力,電力供應、散熱冷卻、高速互連等技術將持續創新。

AI 的未來展望

  • 對 AI 未來充滿樂觀: AI 技術將持續進步,降低人類苦難,推動社會發展。

  • 關注技術法西斯主義風險: 擔心少數精英階層掌握 AI 技術後,可能加劇社會不平等。

  • 人機融合的未來: 人機融合可能成為趨勢,增強人類能力,但也可能帶來新的倫理和社會挑戰。

  • AI 的長期願景: AI 將推動人類文明持續進步,甚至可能最終解決全球變暖等重大挑戰。

  • 保持開放和參與: 鼓勵更多人參與 AI 技術的發展和治理,共同塑造 AI 的未來。

公眾號里回覆 Lex459,可獲得這份 10 萬字長、非常值得閱讀的 PDF。