百川發佈全鏈路領域增強金融模型，領先GPT-4o近20%

12月24日 09:51 新浪網 news-china-auto-hilite

新京報貝殼財經訊（記者白金蕾）12月23日，百川智能發佈全鏈路增強大模型Baichuan4-Finance（百川智能旗下大模型）。在金融數據的基礎上，通過領域自約束訓練方案，Baichuan4-Finance實現了金融能力和通用能力同步提升的效果。該模型在中國人民大學財政金融學院新近發佈的評測體系FLAME以及國內開源金融評測基準FinanceIQ上均登上榜首。

目前Baichuan4-Finance API已在百川智能官網正式上線。

FLAME由兩個方向的評測基準組成。其中，FLAME-Cer主要面向模型的專業金融能力評測，覆蓋了CPA（註冊會計師考試）、CFA（特許金融分析師）、FRM（金融風險管理師）等14類權威金融資格認證；FLAME-Sce則側重模型的場景應用能力，包含10個一級核心金融業務場景，21個二級細分金融業務場景，近百個三級金融應用任務。

FLAME-Cer評測結果顯示，Baichuan4-Finance在銀行、保險、基金、證券等多個資格認證領域的準確率均突破了95%，整體準確率93.62%，領先GPT-4o（Open AI旗下一款大模型）和XuanYuan3-70B-Chat（國內首個開源中文金融大模型），超出GPT-4o近20%。在FLAME-Sce評測中，Baichuan4-Finance一級核心金融業務場景的整體可用率達84.15%，其金融數據計算、金融知識理論等場景的可用率更是超過90%。

中國人民大學財政金融學院FLAME-Cer測評結果。圖|受訪者供圖

此外，在國內主流開源金融評測基準FinanceIQ上Baichuan4-Finance同樣超越了GPT-4o和XuanYuan3-70B-Chat，整體準確率達到79.23%，領先GPT-4o近13%。

FinanceIQ測評結果。圖|受訪者供圖

如何讓模型在提升專業能力的同時不損失通用能力，是當下大模型落地具體場景最大的阻礙。為解決這一問題，百川智能打造了一套全鏈路領域增強方案，該方案覆蓋了高質量數據集構建、模型預訓練、微調、強化學習等從模型研發到場景應用的全流程。

具體而言，Baichuan4-Finance的金融數據集全面且嚴謹，既包含金融專業教材與學術著作、頂級金融期刊論文、監管機構政策文件、金融法律法規等核心專業金融知識數據，也覆蓋了金融專業問答集、企業財報與年度報告、金融類研究分析報告等實踐應用類數據，為提升模型金融能力提供了底層支撐。在此基礎上，Baichuan4-Finance還在領域自約束訓練過程中引入了更高精的通用數據，與金融數據一起進行混合訓練，最終實現了模型通用能力不下降，金融能力增長的效果。

此外，百川智能在後訓練環節也做了大量增強工作，如：通過合成數據、指令數據對模型進行有監督的微調；在強化學習策略中，針對數學計算等金融領域特別關注的場景進行樣本增強等，進一步提升了模型性能。

校對賈寧