對話鄭緯民院士：用超算做AI大模型訓練，成本只需英偉達1/6

文丨新浪科技周文猛

在訓練人工智能大模型的過程中，採購超級計算服務或存儲器，也正在成為有效緩解算力焦慮的新途徑。

近日，中國工程院院士、清華大學計算機系教授鄭緯民在與新浪科技溝通中指出，“過去訓練一個大模型要投入幾十億，但如果把大模型訓練拿到超算上去做，價錢只需要用到英偉達的六分之一。”

此外，鄭緯民還指出了一種全新的AI推理髮展新趨勢——“以存換算”。他以清華大學與AI獨角獸企業月之暗面共同開發的Mooncake技術框架為例，介紹了該技術基於“以存換算”思路，幫助月之暗面kimi智能助手緩解算力緊張需求的原理，從而避免服務器宕機。

“把大模型訓練搬到超算上，價錢只需英偉達1/6”

鄭緯民看到，在經過ChatGPT發佈後全球各科技企業快速追趕後，今年大模型有兩個特點：第一，基礎大模型進入多模態狀態，不只有文本，還有圖像、視頻等；第二，真的用起來了，大模型正與各行業實際的結合，比如大模型+金融，大模型+醫療、大模型+汽車、大模型+智能製造等。

“大模型真的在與國民經濟GDP、跟人們的生活水平密切結合，我一直認為基礎大模型我們的水平跟美國比還是差一點，但‘大模型+’這件事，我們還是有希望超過美國的。”鄭緯民表示。

然而，大模型真實的應用過程中，在涉及數據獲取、數據預處理、模型訓練、模型微調、模型推理等五個環節在內的全生命週期中，卻需要大量的算力資源。如何以更低的成本獲取更加高效、更高可靠的AI大模型算力資源，成為每家企業都在思考的問題。

迫於海外高端芯片獲取的困難，目前國內為滿足AI大模型訓練帶來的海量算力需求，主要發展出的一種解決思路是：通過搭建千卡、萬卡集群，通過海量芯片半導體堆疊，採購多家廠商的芯片進行異構卡聯合訓練，來滿足自己大模型產品訓練的海量算力需求。但在鄭緯民看來，這種方式雖能解決算力緊缺問題，但也存在一些弊端。

首先，對於構建國產萬卡系統，建成固然重要，但用好卻很難。鄭緯民以自己做高性能計算的親身經曆現身說法道：“建一個2000卡的系統，其中1000塊用英偉達芯片，另外1000塊用其他廠家的，系統建成也運轉起來了，但最終發現這些芯片性能不一，有的本事小一點，有的本事大一點，一個任務下來分成2000份，還要給其中1000個芯片分小一點的任務，另外1000個分大一點的任務，這還是靜態的，如果是動態的，則直接分成了2000份最小的進行處理，性能很低。”

鄭緯民指出，大規模算力集群建設過程中存在木桶效應，有的計算卡能力強，有的則弱，就像整個桶裝多少水最終是由短板決定的，板子再長也沒有用。“所以1000個老GPU和1000個新GPU合起來，性能比2000個老GPU性能還低一點，做大規模算力集群的成本也挺大。”

在鄭緯民看來，進行大規模異構卡聯合訓練，在靜態環境下想要實現最高的性能很難，並不划算，如果再涉及異地卡，就會更難，數據從北京傳到貴州，貴州做出來結果再送到上海，這中間涉及的時間成本極高。“錢少的人不需要做，錢多的人可以試試。”

鄭緯民建議企業嚐試採用超算來進行AI大模型訓練。“我國有14億超算系統，錢都是國家付的，有的機器還有一點富餘，因為國內超算機器收費便宜，不像英偉達要把機器成本收回來還要賺錢，所以大家做大模型訓練到青島神威超算上做，六分之一的價格就夠了。”鄭緯民表示。

“以存換算，能夠有效降低AI推理成本”

事實上，大模型真實的應用過程中，在涉及數據獲取、數據預處理、模型訓練、模型微調、模型推理等五個環節在內的全生命週期中，需要大量算力資源的同時，也需要有著大量的存儲資源，用於存儲海量計算結果。尤其在模型推理過程中，如何存得多、傳得快、性價比高，成為整個行業都在共同思考的問題。

此前，鄭緯民曾公開提及，“AI存儲是人工智能大模型的關鍵基座，存儲系統存在於大模型生命週期的每一環，是大模型的關鍵基座，通過以存強算、以存換算，先進的AI存儲能夠提升訓練集群可用度，降低推理成本，提升用戶體驗。”

在與新浪科技溝通中，鄭緯民分享了“以存換算”的基本原理。他指出，“大模型不管是訓練還是推理，都需要很大的算力，同時也需要很多存儲，用來存儲大模型訓練出來的海量參數，以及推理過程中產生的一些過程數據。”然而，如果整個訓練或推理過程中需要存儲的數據越來越多，這會導致存儲器資源緊缺，最終反而又會成為大模型性能提升的“負擔”。

據鄭緯民介紹，為解決上述問題，清華大學想了兩個辦法：第一，在推理過程當中，目前主要是推理卡工作，主機CPU跟主機存儲器是不用的，因此，可以想辦法把主機上的存儲器用到推理過程中，提升了存儲器利用率，性能提升的同時，也節省了不斷購買推理卡的資金成本；第二，將推理過程中產生的共性的、用戶共用的內容存儲起來，通過存儲必要推理過程中產生的數據，當後續遇到類似問題的時候直接調用，直接省去了每次遇到類似問題時推理過程，提升了效率，同時節省了資源。

鄭緯民以清華大學與月之暗面共同研發的Mooncake技術框架為例介紹指出，“通過將不同用戶與Kimi對話的公共內容提煉出來，存儲下來，這不僅減少了每次用戶提問都要重新生成的過程，節省了許多算力卡，也減少了kimi因訪問過大導致的‘訪問延遲’或‘宕機’等問題。”