對話鄭緯民院士:用超算做AI大模型訓練,成本只需英偉達1/6
文 丨 新浪科技 周文猛
在訓練人工智能大模型的過程中,採購超級計算服務或存儲器,也正在成為有效緩解算力焦慮的新途徑。
近日,中國工程院院士、清華大學計算機系教授鄭緯民在與新浪科技溝通中指出,“過去訓練一個大模型要投入幾十億,但如果把大模型訓練拿到超算上去做,價錢只需要用到英偉達的六分之一。”
此外,鄭緯民還指出了一種全新的AI推理髮展新趨勢——“以存換算”。他以清華大學與AI獨角獸企業月之暗面共同開發的Mooncake技術框架為例,介紹了該技術基於“以存換算”思路,幫助月之暗面kimi智能助手緩解算力緊張需求的原理,從而避免服務器宕機。
“把大模型訓練搬到超算上,價錢只需英偉達1/6”
鄭緯民看到,在經過ChatGPT發佈後全球各科技企業快速追趕後,今年大模型有兩個特點:第一,基礎大模型進入多模態狀態,不只有文本,還有圖像、視頻等;第二,真的用起來了,大模型正與各行業實際的結合,比如大模型+金融,大模型+醫療、大模型+汽車、大模型+智能製造等。
“大模型真的在與國民經濟GDP、跟人們的生活水平密切結合,我一直認為基礎大模型我們的水平跟美國比還是差一點,但‘大模型+’這件事,我們還是有希望超過美國的。”鄭緯民表示。
然而,大模型真實的應用過程中,在涉及數據獲取、數據預處理、模型訓練、模型微調、模型推理等五個環節在內的全生命週期中,卻需要大量的算力資源。如何以更低的成本獲取更加高效、更高可靠的AI大模型算力資源,成為每家企業都在思考的問題。
迫於海外高端芯片獲取的困難,目前國內為滿足AI大模型訓練帶來的海量算力需求,主要發展出的一種解決思路是:通過搭建千卡、萬卡集群,通過海量芯片半導體堆疊,採購多家廠商的芯片進行異構卡聯合訓練,來滿足自己大模型產品訓練的海量算力需求。但在鄭緯民看來,這種方式雖能解決算力緊缺問題,但也存在一些弊端。
首先,對於構建國產萬卡系統,建成固然重要,但用好卻很難。鄭緯民以自己做高性能計算的親身經曆現身說法道:“建一個2000卡的系統,其中1000塊用英偉達芯片,另外1000塊用其他廠家的,系統建成也運轉起來了,但最終發現這些芯片性能不一,有的本事小一點,有的本事大一點,一個任務下來分成2000份,還要給其中1000個芯片分小一點的任務,另外1000個分大一點的任務,這還是靜態的,如果是動態的,則直接分成了2000份最小的進行處理,性能很低。”
鄭緯民指出,大規模算力集群建設過程中存在木桶效應,有的計算卡能力強,有的則弱,就像整個桶裝多少水最終是由短板決定的,板子再長也沒有用。“所以1000個老GPU和1000個新GPU合起來,性能比2000個老GPU性能還低一點,做大規模算力集群的成本也挺大。”
在鄭緯民看來,進行大規模異構卡聯合訓練,在靜態環境下想要實現最高的性能很難,並不划算,如果再涉及異地卡,就會更難,數據從北京傳到貴州,貴州做出來結果再送到上海,這中間涉及的時間成本極高。“錢少的人不需要做,錢多的人可以試試。”
鄭緯民建議企業嚐試採用超算來進行AI大模型訓練。“我國有14億超算系統,錢都是國家付的,有的機器還有一點富餘,因為國內超算機器收費便宜,不像英偉達要把機器成本收回來還要賺錢,所以大家做大模型訓練到青島神威超算上做,六分之一的價格就夠了。”鄭緯民表示。
“以存換算,能夠有效降低AI推理成本”
事實上,大模型真實的應用過程中,在涉及數據獲取、數據預處理、模型訓練、模型微調、模型推理等五個環節在內的全生命週期中,需要大量算力資源的同時,也需要有著大量的存儲資源,用於存儲海量計算結果。尤其在模型推理過程中,如何存得多、傳得快、性價比高,成為整個行業都在共同思考的問題。
此前,鄭緯民曾公開提及,“AI存儲是人工智能大模型的關鍵基座,存儲系統存在於大模型生命週期的每一環,是大模型的關鍵基座,通過以存強算、以存換算,先進的AI存儲能夠提升訓練集群可用度,降低推理成本,提升用戶體驗。”
在與新浪科技溝通中,鄭緯民分享了“以存換算”的基本原理。他指出,“大模型不管是訓練還是推理,都需要很大的算力,同時也需要很多存儲,用來存儲大模型訓練出來的海量參數,以及推理過程中產生的一些過程數據。”然而,如果整個訓練或推理過程中需要存儲的數據越來越多,這會導致存儲器資源緊缺,最終反而又會成為大模型性能提升的“負擔”。
據鄭緯民介紹,為解決上述問題,清華大學想了兩個辦法:第一,在推理過程當中,目前主要是推理卡工作,主機CPU跟主機存儲器是不用的,因此,可以想辦法把主機上的存儲器用到推理過程中,提升了存儲器利用率,性能提升的同時,也節省了不斷購買推理卡的資金成本;第二,將推理過程中產生的共性的、用戶共用的內容存儲起來,通過存儲必要推理過程中產生的數據,當後續遇到類似問題的時候直接調用,直接省去了每次遇到類似問題時推理過程,提升了效率,同時節省了資源。
鄭緯民以清華大學與月之暗面共同研發的Mooncake技術框架為例介紹指出,“通過將不同用戶與Kimi對話的公共內容提煉出來,存儲下來,這不僅減少了每次用戶提問都要重新生成的過程,節省了許多算力卡,也減少了kimi因訪問過大導致的‘訪問延遲’或‘宕機’等問題。”