百川發佈全鏈路領域增強金融模型,領先GPT-4o近20%

新京報貝殼財經訊(記者白金蕾)12月23日,百川智能發佈全鏈路增強大模型Baichuan4-Finance(百川智能旗下大模型)。在金融數據的基礎上,通過領域自約束訓練方案,Baichuan4-Finance實現了金融能力和通用能力同步提升的效果。該模型在中國人民大學財政金融學院新近發佈的評測體系FLAME以及國內開源金融評測基準FinanceIQ上均登上榜首。

目前Baichuan4-Finance API已在百川智能官網正式上線。

FLAME由兩個方向的評測基準組成。其中,FLAME-Cer主要面向模型的專業金融能力評測,覆蓋了CPA(註冊會計師考試)、CFA(特許金融分析師)、FRM(金融風險管理師)等14類權威金融資格認證;FLAME-Sce則側重模型的場景應用能力,包含10個一級核心金融業務場景,21個二級細分金融業務場景,近百個三級金融應用任務。

FLAME-Cer評測結果顯示,Baichuan4-Finance在銀行、保險、基金、證券等多個資格認證領域的準確率均突破了95%,整體準確率93.62%,領先GPT-4o(Open AI旗下一款大模型)和XuanYuan3-70B-Chat(國內首個開源中文金融大模型),超出GPT-4o近20%。在FLAME-Sce評測中,Baichuan4-Finance一級核心金融業務場景的整體可用率達84.15%,其金融數據計算、金融知識理論等場景的可用率更是超過90%。

中國人民大學財政金融學院FLAME-Cer測評結果。圖|受訪者供圖中國人民大學財政金融學院FLAME-Cer測評結果。圖|受訪者供圖

此外,在國內主流開源金融評測基準FinanceIQ上Baichuan4-Finance同樣超越了GPT-4o和XuanYuan3-70B-Chat,整體準確率達到79.23%,領先GPT-4o近13%。

FinanceIQ測評結果。圖|受訪者供圖FinanceIQ測評結果。圖|受訪者供圖

如何讓模型在提升專業能力的同時不損失通用能力,是當下大模型落地具體場景最大的阻礙。為解決這一問題,百川智能打造了一套全鏈路領域增強方案,該方案覆蓋了高質量數據集構建、模型預訓練、微調、強化學習等從模型研發到場景應用的全流程。

具體而言,Baichuan4-Finance的金融數據集全面且嚴謹,既包含金融專業教材與學術著作、頂級金融期刊論文、監管機構政策文件、金融法律法規等核心專業金融知識數據,也覆蓋了金融專業問答集、企業財報與年度報告、金融類研究分析報告等實踐應用類數據,為提升模型金融能力提供了底層支撐。在此基礎上,Baichuan4-Finance還在領域自約束訓練過程中引入了更高精的通用數據,與金融數據一起進行混合訓練,最終實現了模型通用能力不下降,金融能力增長的效果。

此外,百川智能在後訓練環節也做了大量增強工作,如:通過合成數據、指令數據對模型進行有監督的微調;在強化學習策略中,針對數學計算等金融領域特別關注的場景進行樣本增強等,進一步提升了模型性能。

校對 賈寧