讓AI「開口說話」：複雜模型的解釋不再晦澀

12月17日 16:43 新浪網 tech-auto-hilite

（來源：MIT News）

機器學習模型雖然功能強大，但可能會出錯，並且通常難以使用。為了幫助用戶瞭解何時以及如何信任模型的預測，科學家們開發了各種解釋方法。然而，這些解釋往往十分複雜，可能涉及數百個模型特徵，有時還以多層次的可視化形式呈現，這讓缺乏機器學習背景的用戶難以完全理解。

為瞭解決這一問題， MIT 的研究人員利用 LLMs 將基於圖表的解釋轉化為通俗易懂的語言。他們開發了一套系統（包含兩個部分），先將機器學習模型的解釋轉換為人類可讀的文字段落，然後自動評估這些敘述的質量，從而讓終端用戶瞭解這些解釋是否值得信任。

通過為系統提供一些示例解釋作為提示，研究人員能夠定製系統輸出的內容，以滿足用戶的偏好或特定應用場景的需求。

從長遠來看，研究人員希望在這一技術基礎上進一步發展，使用戶能夠在現實環境中向模型提出後續問題，瞭解其預測的依據。

「我們開展這項研究的目標是邁出第一步，最終實現用戶能夠與機器學習模型進行深入對話，瞭解模型為何做出特定預測，從而更好地判斷是否採納模型的建議。」

MIT 電氣工程與計算機科學研究生、論文第一作者 Alexandra Zytek 表示。

該論文的合著者包括 MIT 博士後研究員 Sara Pido，EECS 研究生 Sarah Alnegheimish，法國國家可持續發展研究院研究主管 Laure Berti-Équille，以及論文的資深作者、MIT 信息與決策系統實驗室首席研究科學家 Kalyan Veeramachaneni。

這項研究將在 IEEE 大數據會議上展示。

解讀模型背後的邏輯

研究人員重點研究了一種流行的機器學習解釋方法——SHAP。在 SHAP 解釋中，模型會為每個特徵分配一個數值，以表明該特徵對預測結果的影響。例如，當一個模型用於預測房價時，房屋位置可能是其中一個特徵，而位置這一特徵將被賦予一個正值或負值，表示它對模型整體預測的增減作用。

SHAP 解釋通常以柱狀圖形式展示哪些特徵最重要或最不重要，然而，當模型包含超過 100 個特徵時，這種柱狀圖可能變得難以解讀。

「作為研究人員，我們必須對展示內容做出許多選擇。如果我們只顯示前 10 個特徵，用戶可能會質疑其他特徵為什麼沒出現在圖中。而使用自然語言可以免除我們做出這些選擇的負擔。」資深作者 Kalyan Veeramachaneni 解釋道。

但不同於直接使用 LLM 生成自然語言解釋，研究人員採用 LLM 將已有的 SHAP 解釋轉化為可讀的敘述，以減少生成過程中可能引入的誤差。

研究人員開發的系統名為 EXPLINGO，包含兩個協作部分。第一部分名為 NARRATOR，利用 LLM 將 SHAP 解釋轉化為符合用戶偏好的自然語言敘述。通過向 NARRATOR 提供 3 至 5 個手寫的示例敘述，LLM 可以模仿這些樣例的風格生成文字。

Zytek 指出：「與其讓用戶定義他們需要什麼樣的解釋，不如讓他們直接寫下想要看到的內容，這樣更簡單。」

這種方法使 NARRATOR 可以通過不同的手寫示例輕鬆適應新的應用場景。

在 NARRATOR 生成通俗語言解釋後，第二部分 GRADER 會利用 LLM 根據四項指標對敘述質量進行評估：簡潔性、準確性、完整性和流暢性。GRADER 會自動將 NARRATOR 生成的文字與對應的 SHAP 解釋一起輸入 LLM 進行驗證。

Zytek 表示：「我們發現，即使 LLM 在執行任務時可能出錯，它在驗證和檢查任務時通常不會出錯。」

此外，用戶還可以根據需求調整 GRADER 中各指標的權重。「比如在高風險場景下，可以優先考慮準確性和完整性，而降低對流暢性的要求。」她補充道。

優化自然語言敘述

對 Zytek 及其團隊來說，調整 LLM 以生成自然流暢的敘述是他們面臨的最大挑戰之一。通常情況下，添加越多的風格控制規則，LLM 越容易在解釋中引入錯誤。

「我們在提示調優上花了很多時間，一次次發現問題並逐個修復。」她說道。

為測試他們的系統，研究人員使用了九個帶有解釋的機器學習數據集，並讓不同用戶為每個數據集撰寫敘述。他們用這些樣例來評估 NARRATOR 模仿不同寫作風格的能力，同時利用 GRADER 從簡潔性、準確性、完整性和流暢性四個維度對每條敘述進行評分。

最終，研究表明他們的系統可以生成高質量的自然語言解釋，併成功模仿不同的寫作風格。

研究結果顯示，提供少量手寫示例顯著提升了敘述風格的質量。然而，這些示例需要非常精心編寫。比如，加入「更大」之類的比較詞彙，可能會導致 GRADER 錯誤地將準確的解釋標記為不正確。

基於這些成果，研究團隊計劃探索更好的技術，以幫助系統更好地處理比較詞。此外，他們希望通過為解釋加入邏輯推理功能，進一步擴展 EXPLINGO 的能力。

從長遠來看，他們希望將這項研究發展為一個交互式系統，使用戶能夠就某一解釋向模型提出後續問題。

「這在決策過程中非常有幫助。如果用戶對模型的預測結果有異議，我們希望他們能迅速判斷自己的直覺是否正確，或者模型的直覺是否正確，並找到分歧的來源。」Zytek 解釋道。

原文鏈接：

https://news.mit.edu/2024/enabling-ai-explain-predictions-plain-language-1209