瘦身不降智!大模型訓推效率提升30%,京東大模型開發計算研究登Nature旗下期刊

京東探索研究院 投稿

量子位 | 公眾號 QbitAI

京東探索研究院關於大模型的最新研究,登上了Nature旗下期刊!

該項研究提出了一種在開放環境場景中訓練、更新大模型,並與小模型協同部署的系統與方法

它通過模型蒸餾、數據治理、訓練優化與雲邊協同四大創新,這個項目將大模型推理效率平均提升30%,訓練成本降低70%

這個名為《Omniforce:以人為中心的、賦能大模型的、雲邊協同的自動機器學習系統》的項目,發表在Nature旗下期刊npj Artificial Intelligence上。

據介紹,這是國內首個系統性解決開放環境下大模型開發效率難題並獲國際頂刊認證的研究成果。

提出四個創新方法,推理平均提效30%

企業將大模型應用付諸實踐,面臨著諸多卡點:

一方面進入大模型應用門檻高,另一方面模型訓練與推理效率低。

京東大模型開發計算技術,能支持企業的模型開發訓練及生產,讓龐大、重型的AI模型「瘦身」成精悍的小模型,精華依舊,效率大增,瘦身不降智。

既能節省算力資源,加速推理,還能適應多平台,廣泛部署到更多平台上。

論文中提出了四個創新方法:

  • 模型蒸餾:採用動態分層蒸餾技術,特別是在預訓練階段進行蒸餾,調整僅0.5%的參數實現低資源場景下的高效訓練,減少大型模型的部署成本。

  • 數據治理:提出跨領域數據動態采樣算法,自動混合不同領域數據,並引入隱私保護和主動學習技術,提升大模型泛化能力。

  • 訓練優化:使用貝葉斯優化(BO)框架進行超參數優化和架構搜索,尤其是擅長處理離散空間,MPMD場景下資源利用率提升40%。

  • 雲邊協同:支持在雲端進行模型搜索和訓練,邊緣設備負責部署和推理,並利用兩階段壓縮策略以適應資源限制,提升雲邊協作的高效性。

值得一提的是,該平台還可支持京東大模型、Llama、DeepSeek等多個模型的蒸餾、推理。

在模型蒸餾層面,效果較同量級模型有明顯提升。

以京東大模型為例,蒸餾後的大模型Livebench提升14分。

大量的實驗結果也證明有效性和效率,推理平均提效30%,訓練成本平均降低70%

根據企業自身業務,將通用模型轉化為專業模型

這套京東沉澱下來的大模型開發計算的技術,支撐了JoyBuild大模型開發計算平台,廣泛服務行業用戶。

JoyBuild能夠為客戶的大模型開發和行業應用開發,提供定製化解決方案。

它支持各類模型的調優開發,內置20餘種開源模型和豐富的數據集,並提供100餘種算法和工具鏈,幫助企業根據自身業務特徵,將通用模型迅速轉化為專業模型,一站式應用大模型

現在,不到一週時間,企業即可完成從數據準備、模型訓練到模型部署的全流程;之前需要10餘人的科學家團隊工作,現在只需要1-2個算法人員;通過平台模型加速工具優化,節約90%的推理成本。

京東豐富的業務場景,還為平台上的基礎大模型提供具體的行業應用場景,加速基於大模型的商業化落地。

在行業知識庫之外,JoyBuild沉澱了京東自己的零售、物流、健康、金融等行業Know-How,可應用於供應鏈優化、智能客服、營銷內容生成等各類場景,加速模型普惠。

京東給出的大模型解法並不是「黑箱」,而是一條解決大模型訓練效率及應用問題的通用路徑,是真正的「授之以漁」。

未來,京東將進一步提升大模型開發與計算效率,讓中小型和大型企業都能低成本、高效構建專屬AI應用,助推AI規模化應用落地。