AI 科學家吳恩達長文盛讚 DeepSeek:中國正在生成式 AI 領域趕超美國

IT之家 2 月 1 日消息,史丹福大學計算機科學系客座教授吳恩達(Andrew Yan-Tak Ng)昨日在 X 平台發文力撐 DeepSeek:「中國在生成式 AI 領域正趕超美國」。

IT之家附吳恩達觀點大意如下:

本週關於 DeepSeek 的討論讓人們更加清晰地看到了幾個顯而易見的發展趨勢:

  • 中國在生成式 AI 方面正在追趕美國,這對 AI 供應鏈產生了深遠影響。

  • 開放權重模型正在將基礎模型層轉變為商品化產品,為應用開發者提供了更多機會。

  • 擴大規模並非推動 AI 進步的唯一途徑。儘管在處理能力上有著極大的關注和炒作,但算法創新正迅速降低訓練成本。

大約一週前,總部位於中國的 DeepSeek 發佈了其令人矚目的 DeepSeek-R1 模型,該模型在基準測試中的表現與 OpenAI 的 o1 相當。更為重要的是,DeepSeek-R1 作為開放權重模型發佈,並採用了寬鬆的 MIT 許可。上週在達沃斯會議上,許多非技術領域的商業領袖向我詢問了這款模型。而在週一,股市出現了「DeepSeek 拋售」:英偉達和其他多家美國科技公司的股價大幅下跌。(截至寫作時,一些股價已有回升。)

DeepSeek 讓許多人意識到以下幾點:

中國在生成式 AI 領域正趕超美國。2022 年 11 月 ChatGPT 發佈時,美國在這一領域遠遠領先於中國。然而,過去兩年里,中國的進步非常迅速,許多來自中國的模型,如通義千問(我的團隊已經使用了幾個月)、Kimi、書生 InternVL 和 DeepSeek,已經顯著縮小了與美國的差距,尤其在影片生成領域,中國已在某些時刻超越了美國。

我對 DeepSeek-R1 作為開放權重模型發佈感到非常高興,同時它的技術報告也提供了大量細節。而與此形成對比的是,一些美國公司通過炒作人類滅絕等假設性的 AI 危機來推動監管,試圖壓制開源發展。

如今,開源 / 開放權重模型已成為 AI 供應鏈的核心組成部分,許多公司將會使用這些模型。如果美國繼續打壓開源,最終中國將在這一領域佔據主導地位,許多企業將使用更多符合中國價值觀的模型,而非美國的。

開放權重模型正在加速基礎模型層的商品化。正如我之前提到的,大語言模型 token 價格迅速下降,開放權重模型加劇了這一趨勢,也讓開發者擁有更多選擇。OpenAI 的 o1 每百萬輸出 token 的費用為 60 美元,而 DeepSeek-R1 的費用僅為 2.19 美元,這種近 30 倍的價格差異引起了許多人的關注。

基礎模型的訓練與 API 銷售業務非常艱難。許多公司仍在尋找收回巨額訓練成本的途徑。紅杉資本的文章《AI 的 6000 億美元問題》很好地說明了這一挑戰(不過需要強調的是,我認為基礎模型公司做得非常好,也希望它們能夠成功)。相比之下,在基礎模型上構建應用程序則為商業提供了更多機會。既然其他公司已經花費數十億美元訓練這些模型,現在你只需要花很少的錢就可以使用它們,開發客戶服務機器人、電子郵件摘要工具、AI 醫生、法律文書助手等。

擴大規模並非 AI 進步的唯一方式。圍繞規模擴展模型已成為推動 AI 進步的重要話題。誠然,我曾是規模擴展的支持者之一。許多公司通過炒作這一話題籌集了巨額資金,宣稱通過更多資本,它們能夠擴大規模並可預見地推動進步。因此,規模擴展成為了焦點,而忽略了更多進步的途徑。由於美國對 AI 芯片的禁運,DeepSeek 團隊不得不在性能較低的 H800 GPU 上進行優化,以替代 H100 GPU,最終使得模型訓練的計算成本(不包括研究費用)低於 600 萬美元。

是否這會減少計算需求仍待觀察。降低每單位商品的價格有時會促使人們花費更多的總金額來購買該商品。我認為,在長期內,智能和計算的需求幾乎沒有上限,因此,即使變得便宜,我依然看好人類對智能的需求會越來越大。

我看到在 X 上關於 DeepSeek 進展的各種解讀,彷彿它是一面鏡子,反射出每個人不同的看法。我認為 DeepSeek-R1 涉及到的地緣政治問題仍有待解決,同時它也為 AI 應用構建者帶來了極大的機會。我的團隊已經在構思一些新想法,這些想法只有通過使用一個開放的先進推理模型才能實現。現在是一個構建的好時機!

廣告聲明:文內含有的對外跳轉鏈接(包括不限於超鏈接、二維碼、口令等形式),用於傳遞更多信息,節省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。