模型成本疾速上升/下降,哪些技術讓訓AI更慳錢?

機器之心PRO · 會員通訊 Week 34

—- 本週為您解讀 ③個值得細品的 AI & Robotics 業內要事 —-

1. 模型成本疾速上升/下降,哪些技術讓訓 AI 更慳錢?

模型訓練成本是激增還是驟降?兩種說法分別是什麼依據?降低訓練成本有哪些手段?最近都有誰用低成本訓除了更好的模型?…

2. 如何從零開始深入大熱賽道:人形機器人技術全梳理

最近新發佈的人形機器人都有哪些特點?為什麼說人形機器人是 AI 的終極應用形態?人形機器人賽道的整體情況如何?為什麼人形機器人還「不好用」?有哪些行業共性難點?人形機器人背後的底層技術/原理是什麼?人形機器人賽道面臨著哪些關鍵難題?…

3. 調研近 400 篇文獻,綜述全面解析具身智能

具身智能發展到什麼程度了?具身智能體的常見載體和仿真工具有哪些?具身感知都有哪些做法?具身交互數據仍舊匱乏嗎?具身智能體能做好規劃和控了嗎?實現 Sim2Real 還差多遠?…

…本期完整版通訊含 3 項專題解讀 + 27 項本週 AI & Robotics 賽道要事速遞,其中技術方面 10 項,國內方面 9 項,國外方面 8 項。

本期通訊總計 30648 字,可免費試讀至 12% 

 消耗 99 微信豆即可兌換完整本期解讀(約合人民幣 9.9 元) 

要事解讀① 模型成本疾速上升/下降,哪些技術讓訓 AI 更慳錢?

日期:8 月 10 日

事件:有關大模型公司收支鴻溝的討論在近期越來越來越頻繁。Anthropic 公司聯合創始人兼首席執行官 Dario Amodei 近期在訪談中預測大模型的訓練成本將急劇上漲,但方舟投資卻在一份報告中指出大模型的訓練和推理成本均在大幅下降,與大多數聲音「背道而馳」。

大模型的訓練成本到底是在激增還是驟降?

以史丹福《AI Index 2024》報告和 Dario Amodei 均指出大模型的訓練成本正在急劇上升,但方舟投資(Ark Invest)的報告確指出大模型的訓練和推理成本均在下降,吳恩達在近期與方舟投資的對談中同樣認可了這一趨勢觀察。雖然兩種聲音對大模型訓練成本的看法截然相反,但從兩者的出發點來看似乎並不衝突。

1、OpenAI 前研究副總裁、Anthropic 公司聯合創始人兼首席執行官 Dario Amodei 在自今年以來多次於訪談中分享了對人工智能以及大模型技術未來趨勢的看法,並強調大模型的訓練成本將持續上升。

① Dario Amodei 在 4 月與《紐約時報》的訪談中表示,在不久的將來,大語言模型的訓練成本將從現在的 1 億美元上升至 10 億美元左右。[13]

② 而後在 7 月與 In Good Company 的播客節目中,Dario Amodei 對訓練成本的漲幅預測進一步上升,他表示從現在開始的三年內,AI 模型的訓練成本將上升到 100 億美元甚至 1000 億美元。[15]

③ Amodei 表示,AGI 不會在某個節點突然實現。相反,這將是一個循序漸進的過程。如果 AI 模型每年的性能提高十倍,我們可以合理地預測它們所需的硬件的性能也會至少提高十倍,因而硬件可能是 AI 訓練中最大的成本驅動因素。

2、史丹福在《AI Index 2024》報告中同樣指出 AI 模型的訓練成本正在飛速增長,在短短幾年中從千餘美元上漲至以億美元為單位計算。[14]

① 根據《AI Index 2024》的強調了模型參數和訓練成本的關係,模型參數越大,其訓練所需的算力和能耗越高。

② 報告指出,2017 年訓練初版 Transformer 的成本僅消耗 900 美元左右,但 2019 年訓練 RoBERTa Large 的成本已升至約 160000 美元,而 2023 年 OpenAI 訓練 GPT-4 的成本為 7800 萬美元(後被 Altman 證明是 1 億),Google訓練 Gemini Ultra 則需消耗約 1.91 億美元。

3、另一方面,方舟投資在《Big Idea 2024》年度報告中指出,從 Traning Performance 來看,在接下來的三年中,大模型的訓練成本每年下降 75%,推理成本每年下降 86%。[17]

① 吳恩達近日於方舟投資的對談中則指出,雖然並不確定報告中的數據是否準確,但打確實看到了成本在迅速下降。而訓練和推理成本的下降將會推動更多的應用,對進一步創新非常有利。[16]

圖:AI 訓練硬件成本和基於神經網絡的軟件訓練成本趨勢[17]

圖:AI 訓練硬件成本和基於神經網絡的軟件訓練成本趨勢[17]

上升 or 下降,大模型訓練成本如何計算?

對於大模型的訓練成本中的開銷構成,業界已經陸續有過很多分析。對比以 Dario Amodei 為代表的訓練成本激增的判斷,以及方舟投資對訓練成本下降趨勢的觀察,兩者的主要區別在於前者討論從零開始組建團隊訓練最強的大模型,後者則參考 Wright’s Law,將固定成本在複用中分攤和因算法改進而提升訓練效果的「性價比」納入了考量範圍。

1、根據 Dario Amodei 在訪談中的描述,以及業界的補充分析,AI 模型的訓練成本主要來自「硬件採購」「能源消耗」「人才」和「數據」幾方面。[19] [20] [21]

① 硬件成本(或算力成本)是公認支出大頭。隨著 AI 模型的規模擴大,訓練所需的硬件(如 GPU、TPU、CPU 集群等)需求也在不斷增加。

② 能源消耗在模型訓練成本中佔據較高比例。訓練是一個高度能源密集的過程,數據中心的電力消耗、冷卻設施運行以及潛在的碳排放成本構成了能源成本。

③ 訓練 AI 模型的一部分成本來自人才。公司需要一支專業的工程師和科學家團隊,包括數據工程師、AI 研究員、軟件工程師等。為了吸引和保留這些人才,公司需要支付高額的薪資和福利。

④ 數據成本同樣是模型訓練的重要考量,高質量、大規模的訓練數據對於 AI 模型的性能至關重要。數據採集、標註、清洗、存儲和傳輸等環節會產生相應的成本。

2、方舟投資在《Big Idea 2024》年度報告中通過 Wright’s Law 來估算 AI 訓練成本,發現加速計算硬件硬件的改進應當會使 AI 相關計算單元(RCU)的生產成本每年降低 53%,而算法模型的增強可能會進一步使訓練成本每年降低 47%。換句話說,硬件和軟件的融合可能會推動 AI 訓練成本以每年 75%的速率下降,直到 2030 年。

① Wright’s Law 是一個經驗法則,其核心觀點是,當生產某一產品的數量增延長,生產過程中的固定成本(如研發、設備投資)可以分攤到更多的單位產品上,導致單位產品的平均成本下降。

② 在模型訓練成本的背景下,Wright’s Law 同樣適用。隨著 AI 模型訓練的數量增加,相關的固定成本(如硬件投資、數據收集和標註成本)可以在更多的模型或模型迭代上分攤。

③ 隨著技術的進步和規模化生產,用於訓練 AI 模型的硬件和軟件也可能變得更加高效和經濟。由此,隨著時間的推移和訓練數量的增加,單位模型的訓練成本可能會下降。

3、在前一年的報告(《Big Idea 2023》)中,方舟投資對 AI 訓練成本的估算為每年以 70%的速度下降。以將一個 LLM 訓練到 GPT-3 水平為例,其成本從 2020 年的 460 萬美元在 2022 年下降至 45 萬美元(將至 10%)。[18]

③ 根據報告研究組的建模,訓練一個比 GPT-3 多 57 倍參數和 720 倍語言符號的 AI 模型的成本,將從 2022 年的 170 億美元下降到 2030 年的 60 萬美元。

4、《Big Idea 2024》的另一個觀察是,研究人員通過在訓練和推理、硬件以及模型設計上的創新帶來了模型訓練的提升和成本的降低。

① 這部分從硬件和軟件的角度估算了技術創新讓模型對模型訓練效果的幫助。相比硬件,報告認為算法和軟件層面的進會為模型訓練帶來更高的性價比,在實現同樣性能的前提下成本更低。

5、吳恩達在訪談中認可了 Ark Invest 對趨勢的判斷,並補充表示開源的預訓練模型同樣也是新團隊節約了大量的成本,而開發更好的流程(agentic workflow)可讓預訓練模型表現更好,不用從頭訓練。

① 吳恩達還在訪談中提到,有關 AI 模型的訓練和推理在未來將會可能變成兩套設施。當前有很多公司因為設施在訓練上有效果而慣性地將其用作推理,但推理和訓練的設施是否存在足夠差異,甚至需要新的架構仍是值得討論的問題。

圖:《Big Idea 2024》中技術創新對模型表現的影響評估。[17]

圖:《Big Idea 2024》中技術創新對模型表現的影響評估。[17]

降低訓練成本的手段有哪些?

由於硬件的迭代和算力的價格並非模型開發者能夠掌控,許多團隊會選擇採用開源預訓練模型進行微調+RAG,或是基於大尺寸的模型蒸餾出參數規模更小的模型,避免從頭訓練的成本。Meta 此前在發佈 Llama 3.1 405B 時同樣強調了他們對開源的努力。另一方面,也有很多團隊通過算法或是數據工作上的創新來提高模型表現,同時節約成本。

1、Semianalysis 在 2023 年初的一篇文章中分析了頭部廠商在 AI 模型訓練上的成本,並介紹了用於改善大模型的訓練和推理成本/效率的技術與策略,分別是稀疏性(sparsity)、剪枝(pruning)、專家混合(MoE)以及提 early exit/token dropping/token merging。[20]

① 該文章的分析邏輯僅關注硬件成本,通過參數數量、token 數量和模型架構計算了許多流行模型的理論訓練成本,並強調即便採用 Nvidia A100 GPU,其模型/硬件的 FLOPS 利用率的商業也只有 60%

② 在此基礎上,該文章介紹的四種技術從不同層面提高了 FLOPS 利用率。

2、稀疏性(Sparsity)指在模型訓練過程中,許多權重參數實際上為零。這種現像在大型模型訓練初期尤為常見。

① 由於任何數乘以 0 都是 0,這些零權重實際上是無效的計算操作,但它們仍然消耗計算資源。

② 通過利用稀疏性,可以跳過這些無效的計算,從而減少計算量,提高訓練效率,並降低能耗。

③ 論文《Large Models are Parsimonious Learners: Activation Sparsity in Trained Transformers》探討了大型 Transformer 模型在訓練過程中的激活稀疏性,並展示了如何利用這種稀疏性來提高效率。