新經濟視界|國產大模型加速迭代 性能逼近甚至趕超GPT-4

封面新聞記者 歐陽宏宇

繼文心、星火之後,又一中國造大模型性能趕超GPT-4。

5月9日,阿里雲正式發佈通義千問2.5,模型性能全面趕超GPT-4 Turbo。據阿里雲智能集團首席技術官周靖人介紹,在中文語境下,文本理解、文本生成、問答建議、閑聊對話和安全風險等多項能力上趕超GPT-4。

據瞭解,相比通義千問2.1版本,通義千問2.5在理解能力、邏輯推理、指令遵循、代碼能力上均得到提升。在權威基準OpenCompass上,通義千問2.5得分追平GPT-4 Turbo。同時,通義千問最新開源的1100億參數模型在多個基準測評,超越Meta的Llama-3-70B。

國產大模型技術爆發一年多,在全球範圍內也從曾經的追趕者到如今的並行者甚至引領者。清華大學基礎模型研究中心聯合中關村實驗室在上月底發佈的報告顯示,在語義理解、閱讀理解等能力上,文心一言4.0已超過GPT-4 Turbo。科大訊飛也在今年初透露,訊飛星火V3.5整體已經接近GPT-4水平,尤其在數學、語言理解、語音交互能力超過GPT-4 Turbo。

在大模型投入上,中國的大模型公司取得重大突破,背後是基於各種預訓練模型框架和開源項目,各種模型如雨後春筍般誕生。不過,在業內人士看來,和國外大模型相比,國內的大模型發展起步晚一些。加上高性能算力的限制和數據質量的差距等,國內研發的大模型無論規模還是核心能力,與世界先進水平還存在一年左右的差距。

據上海人工智能實驗室評測,雖然國產大模型在中文場景下國內最新的大模型已展現出獨特優勢,尤其在語言、知識維度上接近GPT-4 Turbo的水平;但在金融、工業等要求可靠的場景落地需要的關鍵能力上相比於GPT-4還存在差距。

“國內大模型要整體趕超GPT-4 Turbo等國際頂尖的大模型,在複雜推理、可靠地解決複雜問題等方面,仍需下大功夫。”上海人工智能實驗室領軍科學家林達華指出,這關係到落地應用時大模型的可靠性,比如,隨著大模型進入商用,在金融場景下若要分析公司財報,甚至是工業領域分析技術文檔,數學等方面的計算能力就會成為一個壁壘。