讓AI「開口說話」:複雜模型的解釋不再晦澀
機器學習模型雖然功能強大,但可能會出錯,並且通常難以使用。為了幫助用戶瞭解何時以及如何信任模型的預測,科學家們開發了各種解釋方法。然而,這些解釋往往十分複雜,可能涉及數百個模型特徵,有時還以多層次的可視化形式呈現,這讓缺乏機器學習背景的用戶難以完全理解。
為瞭解決這一問題, MIT 的研究人員利用 LLMs 將基於圖表的解釋轉化為通俗易懂的語言。他們開發了一套系統(包含兩個部分),先將機器學習模型的解釋轉換為人類可讀的文字段落,然後自動評估這些敘述的質量,從而讓終端用戶瞭解這些解釋是否值得信任。
通過為系統提供一些示例解釋作為提示,研究人員能夠定製系統輸出的內容,以滿足用戶的偏好或特定應用場景的需求。
從長遠來看,研究人員希望在這一技術基礎上進一步發展,使用戶能夠在現實環境中向模型提出後續問題,瞭解其預測的依據。
「我們開展這項研究的目標是邁出第一步,最終實現用戶能夠與機器學習模型進行深入對話,瞭解模型為何做出特定預測,從而更好地判斷是否採納模型的建議。」
MIT 電氣工程與計算機科學研究生、論文第一作者 Alexandra Zytek 表示。
該論文的合著者包括 MIT 博士後研究員 Sara Pido,EECS 研究生 Sarah Alnegheimish,法國國家可持續發展研究院研究主管 Laure Berti-Équille,以及論文的資深作者、MIT 信息與決策系統實驗室首席研究科學家 Kalyan Veeramachaneni。
這項研究將在 IEEE 大數據會議上展示。
解讀模型背後的邏輯
研究人員重點研究了一種流行的機器學習解釋方法——SHAP。在 SHAP 解釋中,模型會為每個特徵分配一個數值,以表明該特徵對預測結果的影響。例如,當一個模型用於預測房價時,房屋位置可能是其中一個特徵,而位置這一特徵將被賦予一個正值或負值,表示它對模型整體預測的增減作用。
SHAP 解釋通常以柱狀圖形式展示哪些特徵最重要或最不重要,然而,當模型包含超過 100 個特徵時,這種柱狀圖可能變得難以解讀。
「作為研究人員,我們必須對展示內容做出許多選擇。如果我們只顯示前 10 個特徵,用戶可能會質疑其他特徵為什麼沒出現在圖中。而使用自然語言可以免除我們做出這些選擇的負擔。」資深作者 Kalyan Veeramachaneni 解釋道。
但不同於直接使用 LLM 生成自然語言解釋,研究人員採用 LLM 將已有的 SHAP 解釋轉化為可讀的敘述,以減少生成過程中可能引入的誤差。
研究人員開發的系統名為 EXPLINGO,包含兩個協作部分。第一部分名為 NARRATOR,利用 LLM 將 SHAP 解釋轉化為符合用戶偏好的自然語言敘述。通過向 NARRATOR 提供 3 至 5 個手寫的示例敘述,LLM 可以模仿這些樣例的風格生成文字。
Zytek 指出:「與其讓用戶定義他們需要什麼樣的解釋,不如讓他們直接寫下想要看到的內容,這樣更簡單。」
這種方法使 NARRATOR 可以通過不同的手寫示例輕鬆適應新的應用場景。
在 NARRATOR 生成通俗語言解釋後,第二部分 GRADER 會利用 LLM 根據四項指標對敘述質量進行評估:簡潔性、準確性、完整性和流暢性。GRADER 會自動將 NARRATOR 生成的文字與對應的 SHAP 解釋一起輸入 LLM 進行驗證。
Zytek 表示:「我們發現,即使 LLM 在執行任務時可能出錯,它在驗證和檢查任務時通常不會出錯。」
此外,用戶還可以根據需求調整 GRADER 中各指標的權重。「比如在高風險場景下,可以優先考慮準確性和完整性,而降低對流暢性的要求。」她補充道。
優化自然語言敘述
對 Zytek 及其團隊來說,調整 LLM 以生成自然流暢的敘述是他們面臨的最大挑戰之一。通常情況下,添加越多的風格控制規則,LLM 越容易在解釋中引入錯誤。
「我們在提示調優上花了很多時間,一次次發現問題並逐個修復。」她說道。
為測試他們的系統,研究人員使用了九個帶有解釋的機器學習數據集,並讓不同用戶為每個數據集撰寫敘述。他們用這些樣例來評估 NARRATOR 模仿不同寫作風格的能力,同時利用 GRADER 從簡潔性、準確性、完整性和流暢性四個維度對每條敘述進行評分。
最終,研究表明他們的系統可以生成高質量的自然語言解釋,併成功模仿不同的寫作風格。
研究結果顯示,提供少量手寫示例顯著提升了敘述風格的質量。然而,這些示例需要非常精心編寫。比如,加入「更大」之類的比較詞彙,可能會導致 GRADER 錯誤地將準確的解釋標記為不正確。
基於這些成果,研究團隊計劃探索更好的技術,以幫助系統更好地處理比較詞。此外,他們希望通過為解釋加入邏輯推理功能,進一步擴展 EXPLINGO 的能力。
從長遠來看,他們希望將這項研究發展為一個交互式系統,使用戶能夠就某一解釋向模型提出後續問題。
「這在決策過程中非常有幫助。如果用戶對模型的預測結果有異議,我們希望他們能迅速判斷自己的直覺是否正確,或者模型的直覺是否正確,並找到分歧的來源。」Zytek 解釋道。
原文鏈接:
https://news.mit.edu/2024/enabling-ai-explain-predictions-plain-language-1209