495篇參考文獻!北交大清華等高校發佈多語言大模型綜述
北交大團隊 投稿自 凹非寺
量子位 | 公眾號 QbitAI
雖然大模型取得突破性進展,但其在多語言場景下仍具有局限性,存在很大的改善空間。
那麼,大模型多語言能力到底什麼水平?其發展又存在什麼樣的挑戰?
來自北京交通大學、加拿大蒙特利爾大學、加拿大滑鐵盧大學和清華大學的研究團隊發表了題為」A Survey on Large Language Models with Multilingualism: Recent Advances and New Frontiers」 (大模型的多語言能力綜述)的論文,全面回顧了大模型在多語言能力上的最新進展與未來發展方向。

參考文獻多達495篇,可見內容十分之詳實,很全面很專業了。

本文首先重新思考了預訓練語言模型從前期工作與當前研究之間的過渡。
接著,論文從不同的視角對LLMs進行討論,包括訓練與推理方法、信息檢索、安全性、多領域與語言文化的融合以及數據集的使用。論文還討論了這些方面所面臨的主要挑戰,並提出了可能的解決方案。
最後,論文還強調了未來研究方向,旨在進一步提升LLMs的多語言能力。
大語言模型綜述
儘管LLMs已經取得了顯著進展,但它們在多語言場景中的應用仍然有限,特別是在極低資源語言中,這表明LLMs仍有很大的改進空間。
其原因在於,LLMs訓練數據的語言分佈高度不平衡,且不同語言的數據質量差異較大。
當前LLMs在多語言場景中由於數據匱乏而在不同階段,主要面臨著這些問題。

基於這些挑戰,本文從各個維度可進行了全面的比較分析和多視角探索,展望了未來的發展方向。

(研究進展概覽和綜述的章節安排,包括代表性模型、推理策略、信息檢索、安全性、多領域場景應用、偏見和公平性、數據資源以及評測集信息)
一、訓練方法
基於訓練範式將現有的多語言LLMs分為兩類:
-
(1) 從頭開始訓練的基礎LLMs;
-
(2) 在基礎模型上持續訓練的LLMs。
本節將對兩種範式訓練得到的LLMs的多語言能力進行探尋。


從頭訓練的LLMs
為了獲得具有多語言能力的語言模型,一種常見的做法是利用不同語言中的所有可用數據進行訓練。通常會應用**語言采樣算法來控制每種語言的重要性。近期的研究表明,根據Scaling Law,模型的參數規模對模型的性能有顯著影響,即更大的模型會帶來更好的性能。
持續訓練的LLMs
另一種提升LLMs多語言能力的方法是持續訓練,這種方法通過使用新數據更新模型,而不是從頭開始訓練模型。其主要思路是從基礎模型中轉移知識,並通過更新的數據注入額外的多語言能力,這樣不僅不需要過多的計算或數據資源,還能降低訓練成本。
儘管LLMs在非英語語言上取得了顯著進展,無論是從零開始訓練,還是在基礎模型上持續訓練並擴展語言數據,但仍存在低資源、知識衝突、知識類型單一等問題。
未來研究需要從進一步探索優化多語言表示空間,根據任務需求量身定製架構,而不是僅僅在標準Transformer上擴充數據,並探索LLMs的終身學習能力,以持續擴展LLMs的語言支持。
二、多語言推理策略
多語言推理策略的發展,對於在不同語言環境中部署語言模型至關重要。
主要包括以下幾種。
直接推理
直接推理方法不需要翻譯步驟,從而減少了計算開銷,並通過提高效率簡化了處理流程。結果驗證了直接推理的優點,包括保持語言真實性、提高處理效率以及在低資源語言中的表現提升。
預翻譯
直接推理可能並不適用於所有LLMs,這取決於它們的多語言能力。預翻譯推理通過將輸入的多種語言翻譯成一個高資源語言(例如英語或中文),利用該語言作為中軸語送給LLMs進行推理。
多語言思維鏈
多語言CoT方法對於包含特定文化背景中的複雜推理任務表現理想,它能夠實現更自然和直觀的問題解決。多語言CoT的常見做法是提示LLMs在查詢的原始語言中建立逐步推理過程,從而能夠保留語言和文化的細微差別。

Code-switching
Code-switching是指在語言互動中,溝通者根據語境需求在兩種或多種語言之間切換的現象。這個現像在雙語或多語社區中很常見,特別是在口頭交流中。解決code-switching是一個重要且具有挑戰性的任務,因為在推理時無法指定所有code-switch文本的語言ID。
多語言檢索增強
多語言RAG的主要方法採用從開放域檢索知識並將其應用於上下文中(即增強提示)。當LLMs與低資源機器翻譯結合使用時,會出現幻覺和偏離目標的問題,而RAG可以通過提高低資源語言方向的翻譯質量來緩解這些問題。但是單靠RAG方法在低資源語言上實現顯著提升,尤其是在LLMs表現較差的情況下,仍然是一個巨大的挑戰。同時,構建適用於低資源語言的檢索器也是一個挑戰。
未來研究方向包括在多語言環境下為LLMs設計通用推理範式,根據語言特定特徵改進推理方法,湧現能力和模型協作。
三、多語言信息檢索
與上一節介紹的RAG方法(mIR for LLM)有所不同,本節將重點討論多語言方面,特別是LLM帶來的多語言檢索的新機會(LLM for mIR)。
綜合訓練數據
多語言檢索的合成數據集傳統上通過機器翻譯和自然語義結構,LLM帶來了第三種方法,即通過生成大規模合成數據來以經濟的方式訓練檢索模型。
多語言檢索器
檢索器被分為無監督稀疏模型、監督稀疏模型和監督密集模型,其中密集模型可以進一步分為單向量模型和多向量模型。許多基於LLM的embedding模型應運而生,在檢索任務方面,基於LLM的embedding模型可以通過微調來提高領域內的效果,並具備較好的領域外的泛化能力。或是通過提示LLMs生成稠密和稀疏的表示,從而在段落檢索任務上實現具有競爭力的zero-shot性能。
多語言重排器
論文探索了使用 LLM 作為zero-shot 重排序器的方法,在不依賴封閉源 GPT 模型的情況下構建列表式重排序器。GPT-4 在該任務上表現出具有競爭力的zero-shot性能,甚至在一些語言上與機器翻譯文檔的zero-shot結果相當。
在可訪問的搜索系統中部署LLM仍面臨挑戰,包括索引和搜索過程中的固有高延遲,以及推理和微調過程中對計算資源的高需求。當前的檢索方法應用於LLM,主要將LLM視為一個知識庫。然而,在低資源語言中,LLM缺乏生成能力且未經過大規模數據訓練,因此它們難以作為可靠的知識來源。
四、安全性
隨著LLMs在各種應用中的廣泛部署,越來越多的安全問題浮出水面。本節不僅關注針對不同語言的安全問題,還列舉了常見的安全問題。所研究的方法在所有語言中都同樣有效,並且可以輕鬆轉移到多語言場景中,為未來的研究提供了啟發性思路。
攻擊方法
一種常見的做法是「越獄」攻擊,通常指的是未經授權訪問或修改模型的底層代碼或功能。實質上,它涉及突破LLMs設計或使用政策所施加的限制或約束。它包括繞過安全措施或啟用開發者未授權或不允許的功能。LLMs的越獄方法可以分為三種類型:貪婪坐標梯度(GCG)越獄、基於提示的越獄和多語言越獄。前兩種方法涉及對LLMs的通用攻擊,後者則強調通過多種語言進行越獄。所有這些方法的目標都是繞過LLMs的安全措施,以生成惡意信息。本文基於統一的評估框架調查了不同越獄方法在各個LLMs上的表現。
防禦方法
LLMs安全性中的防禦方法可以分為開源和閉源LLMs兩類。對於開源LLMs,現有的研究通過使用安全指令對基礎模型進行微調來增強安全性。對於閉源LLMs,之前的工作通過審計輸入提示,採用各種安全判斷策略來防範風險。然而,這些簡單的機制無法達到令人滿意的性能,然而,無論採取何種防禦機制,都很難完全消除不安全內容的生成。
未來討論
目前,大多數關於LLM安全性的研究都是在具有多語言能力的流行模型(如GPT-4和LLaMA)上進行的。基於對現有通用攻擊與防禦方法的總結,本文探討了兩個未來研究的方向:
(1)通過針對LLMs的多語言能力進行越獄攻擊。
(2)如何提高LLMs在多語言場景下的魯棒性。
五、領域特定場景
LLM同時促進了其在各個領域的應用,包括金融、醫學、法律、教育、交通等領域。這些領域特定的LLM在相關領域中展示了良好性能和廣闊的應用前景。然而,這些LLM主要集中在英語上,較少有面向中低資源語言的模型,這極大限制了LLM在全球範圍內的應用。本章介紹了在醫學和法律領域進行的開創性多語言研究,並探討其局限性與挑戰。
醫學領域
為了緩解醫學領域中的多語言問題,現有的研究通常引入多語言醫學語料庫,以增強基礎模型的多語言能力,或通過翻譯得到訓練語料和評估數據。為了進一步評估醫學LLM的多語言泛化能力,有相關研究引入了大規模的多語言醫學LLM基準,涵蓋多種語言。但是其主要工作都是圍繞數據展開。
法律領域
與醫學領域類似,LLM在法律領域的應用主要集中在英語上。當擴展到其他語言時,普遍觀察到性能下降的現象。為了應對法律領域的特定問題,所提出的模型需要適應法律領域的特徵,這些特徵與其他領域相比,更加註重事實性、模糊性、結構化和時效性。
現有LLM在解決領域問題時首先要考慮數據稀缺與翻譯問題。儘管知識遷移在一定程度上提供了一些緩解,但低資源語言的表現不足問題依然存在。通過機器翻譯或許是緩解低資源的方法,但是機器翻譯在處理跨多語言的領域特定術語時。翻譯中可能包含本地說話者不常用的術語或短語,也難以全面理解和考慮目標語言的本地文化背景。在特定領域(如法律或金融領域),每種語言都承載著受歷史、文化和地區背景影響的獨特知識。除了語言的語義層面,挑戰在於如何捕捉這些語言之間的細微差異,並將語言特定的領域知識整合到LLM中。例如,歐洲理事會和美國司法體系之間的法律定義差異,以及中醫和西醫之間的對比,突顯了這一挑戰。
六、數據資源、基準與評估
論文總結了現有大模型有關多語言方面的可用訓練數據集、基準數據集,並分析了各種評估方法,提出了未來的改進方向。
數據資源
作為全球說話人數最多的語言,英語在互聯網中佔據主導地位。現有的數據資源主要以英語為中心,這種集中化導致了區域性和本地語言資源的匱乏,加劇了語言瀕危和經濟邊緣化問題。低資源語言由於標註錯誤或本地用法表達不充分,質量較低,尤其是網絡爬取數據,這些數據主要包含色情、無意義或非語言性內容。論文收集了可靠大規模多語言數據資源,但是這些數據還存在偏見和公平性問題。
基準數據集
論文列出了2018年mBERT提出之後的代表性多語言基準測試。現有基準測試種類繁多,但這些基準測試仍然存在諸如任務種類受限、缺乏文化和本地化語言特徵評估的問題。
在多語言數據方面,政府、公司和研究人員需要共同推動多語言數據資源的良性循環。通過訪問豐富、精心收集的語言數據集,研究人員和開發者能夠構建模型和基準測試。這些模型和基準測試的豐富性,反過來又促進了更多的發佈、加強了溝通,並推動了公司在實際應用場景中的應用。這些產出有潛力吸引更多的用戶,而政府主導的指南則有助於生成無毒的數據,這些數據可以進一步用於研究和開發。
七、偏見與公平性
LLM在多語言場景中的偏見可以分為語言偏見和人口偏見。前者是由於不同語言可用訓練語料的不平衡,人口偏見則源於互聯網上的偏見和虛假信息,導致LLM不可避免地繼承了性別、種族和政治背景等方面的人口偏見。因此,其他語言中的偏見和倫理問題依然存在,可能對非英語用戶產生顯著的負面影響。
八、結論與未來方向
本文全面回顧了大模型多語言能力的關鍵模塊及其最新進展,分析了大型語言模型在其中的應用與挑戰,並展望了未來的發展方向。
研究團隊提出了訓練範式、推理範式、檢索範式、安全性、多領域和實際評估方法以及去除偏見的創新,作為推動大模型多語言性能邁向新高度的關鍵要素。
未來研究方向包括:
-
可持續訓練範式:理想的情況是利用新獲得的語言數據來提高LLM的性能和支持的語言數量。儘管哺乳動物的大腦可以通過皮層回路保護先前獲得的知識,避免災難性遺忘,但神經網絡模型缺乏這種能力。因此,在多種語言中實現所有任務的良好表現,這一目標仍未被充分探索。
-
通用推理範式:現有技術集中於利用參數調優技術和提示工程來探索LLM的潛在多語言能力。論文提出探索在不額外訓練的情況下有效解決語言特定問題(如代碼切換、多語言越獄、跨領域適應等)的潛在機制是有益的。
-
面向實際的評估:為了緩解語言障礙問題,多語言社區急需構建一個全面且權威的基準,來評估LLM在多個方面的多語言能力,這一目標可以通過合理結合多個基準或指南來實現,這些基準或指南應由相應語言社區的語言學專家發起。
-
多語言中的偏見影響:現有的LLM繼承了訓練語料中的偏見,如何讓LLM避免生成有偏見/有風險的內容,並具備在不同語言中生成文化概念的能力,是實現語言公平技術的重要且有意義的目標。
這篇綜述論文為研究人員和工程師提供了對多語言以及大模型領域的全面瞭解,指引了未來研究和開發的方向。讓我們共同期待,大模型技術在多語言場景中的廣泛應用和持續創新!
論文鏈接:
https://arxiv.org/abs/2405.10936