Jim Fan再談基準測試之弊!Hugging Face開源套件LightEval領跑LLM評估新篇章

新智元報導  

編輯:Mindy

【新智元導讀】HuggingFace推出LightEval,為AI評估帶來透明度和定製化,開啟AI模型評估的新時代。

在AI的世界里,模型的評估往往被看作是最後的「檢查點」,但事實上,它應該是確保AI模型適合其目標的基礎。

隨著AI模型在商業運營和研究中變得越來越重要,對精確、可適應的評估工具的需求也變得前所未有的迫切。

然而,如何有效地進行評估卻仍然是一個複雜且充滿挑戰的問題。

在這篇文章中,我們將探討Jim Fan對於如何「破解」LLM基準測試的見解,以及HuggingFace通過其新推出的評估套件LightEval對AI評估透明性和定製化的貢獻。

如何在LLM基準測試中作弊

英偉達高級科學家Jim Fan分享了幾種「破解」LLM基準測試的方法,通過一些技巧,即使是新手也能在基準測試上取得驚人的成績。

這些方法同時揭示了當前評估體系中的一些漏洞和問題。

1. 在測試集的改寫例子上進行訓練

Jim Fan指出,通過訓練在不同格式、措辭甚至外語版本的測試問題上,LLM模型可以顯著提高其在基準測試中的表現。

例如,LMSys的「LLM-decontaminator」論文發現,通過重寫MMLU、GSK-8K和HumanEval(編碼)中的測試問題,一個13B的模型的評分竟然可以超過GPT-4。

這一技巧的核心在於,它利用了模型在不同語言和格式上的泛化能力,從而在基準測試中獲得更高的分數。

2. 使用前沿模型生成新的問題進行訓練

不僅僅是重新格式化現有測試問題,Jim Fan還提到,可以使用前沿模型生成新的問題,這些問題在表面上不同,但在解決模板和邏輯上非常相似。

這種方法試圖過擬合到測試集的近似分佈,而不是單個樣本。例如,HumanEval包含大量簡單的Python問題,可以認為是一個特定、狹窄的分佈。

但這些問題並不能反映真實世界中的編碼複雜性。

3. 提示工程與多數投票

另一個有趣的技巧是通過提示工程來迷惑LLM-decontaminator或其他檢測器。

檢測器是公開的,但數據生成過程是私有的,可以利用這一點進行優勢操作。此外,增加推理時計算的預算幾乎總是有效的。

簡單的多數投票或思維樹(Tree of Thought)也能顯著提高模型的表現。

這一方法的核心在於,利用多個模型的集成優勢,使其在推理過程中能夠相互補充和驗證,從而提高整體性能。

LightEval:HuggingFace的開源AI評估解決方案

那麼,什麼樣的評判標準比較可信呢?

Jim Fan在最後補充到,除非評判的測試集足夠開放、不受控制;或者足夠精心策劃及保密;不然該基準很容易將會被「作弊」從而失去效力。

與此同時,HuggingFace新推出的LightEval評估套件正好助力於解決這一問題。

LightEval允許用戶根據自己的具體需求定製評估任務,支持在多種設備上進行評估,包括CPU、GPU和TPU,適用於從小型到大規模的部署。

通過與HuggingFace現有的數據處理庫和模型訓練庫的無縫整合,LightEval為AI的整個開發週期提供了支持,幫助企業和研究者確保模型在實際應用中的有效性和公正性。

首先,標準化基準測試雖然有用,但往往無法捕捉到真實世界應用中的細微差別。

LightEval通過提供一個可定製的開源評估套件和評估功能,允許企業根據自身的業務目標和需求進行評估,從而確保模型在實際應用中的有效性和可靠性,更貼近實際世界。

其次,LightEval不僅提供了一個強大的評估工具,還通過其開源性質,促進了AI社區的合作與創新。

用戶可以根據自身需求定製評估流程,同時還可以從社區中獲取最佳實踐和技術支持。

這種開放性和合作性不僅提高了評估工具的靈活性和適應性,還推動了整個AI生態系統的發展和進步。

另外,LightEval的一大優勢在於其靈活性和可擴展性。

無論是小型企業還是大型企業,都可以根據自身需求調整評估流程和計算資源,從而確保模型評估的準確性和高效性。

LightEval支持多種設備和分佈式系統,使其能夠在不同硬件環境下運行,從而提高了其適用範圍和實用性。

AI社區的一個意見領袖Denis Shiryaev指出,圍繞系統提示和評估過程的透明度可以幫助防止一些「最近困擾AI基準測試的戲劇性事件」。

通過將LightEval開源,Hugging Face鼓勵在AI評估中更大的責任性——隨著公司越來越依賴AI做出高風險決策,這是非常需要的。

未來AI評估的趨勢

Hugging ace承認,該工具仍處於初期階段,用戶不應期望「100%的穩定性」。然而,公司正在積極徵求社區反饋,鑒於其在其他開源項目上的成功記錄,LightEval可能會迅速改進。

儘管挑戰存在,但隨著AI在日常商業運營中的嵌入,可靠、可定製的評估工具的需求只會增加。

LightEval有望成為這一領域的關鍵玩家,特別是越來越多的組織已經認識到超越標準基準測試評估其模型的重要性。

LightEval的靈活性、透明性和開源性質使其成為組織在部署AI模型時的寶貴資產。隨著AI不斷塑造各個行業,像LightEval這樣的工具將成為確保這些系統可靠、公平和有效的關鍵。

對於企業、研究人員和開發者來說,LightEval提供了一種超越傳統評估指標的新方式。

它代表了一種更可定製和透明的評估實踐,這一發展在AI模型變得更加複雜和其應用變得更加關鍵的時代尤為重要。

在一個AI越來越多地影響數百萬人決策的世界中,我們希望能構建一個更加可靠和透明的AI評估環境,為AI技術的健康發展提供堅實的基礎。

參考資料:

https://github.com/huggingface/lighteval

https://x.com/DrJimFan/status/1833160432833716715

LightEval: Hugging Face’s open-source solution to AI’s accountability problem