Google發佈 FACTS Grounding 基準：Gemini、GPT-4o、Claude 當評委，成 AI 大語言模型「幻覺照妖鏡」

12月18日 13:15 新浪網 tech-auto-hilite

IT之家 12 月 18 日消息，Google DeepMind 團隊於 12 月 17 日發佈博文，宣佈推出 FACTS Grounding 基準測試，評估大型語言模型（LLMs）根據給定材料是否準確作答，並避免「幻覺」（即捏造信息）的能力，從而提升 LLMs 的事實準確性，增強用戶信任度，並拓展其應用範圍。

數據集

在數據集方面，ACTS Grounding 數據集包含 1719 個示例，涵蓋金融、科技、零售、醫療和法律等多個領域，每個示例包含一篇文檔、一條要求 LLM 基於文檔的系統指令和隨附的提示詞。

示例文檔長度不一，最長可達 32000 個 token（約 20000 字）。用戶請求涵蓋摘要、問答生成和改寫等任務，但不包含需要創造力、數學或複雜推理的任務。IT之家附上演示圖片如下：

數據集分為 860 個「公共」示例和 859 個「私有」示例，目前已發佈公共數據集供評估使用，私有數據集用於排行榜評分，以防止基準汙染和排行榜作弊。

評估方案

在評估方案上，FACTS Grounding 採用 Gemini 1.5 Pro、GPT-4o 和 Claude 3.5 Sonnet 3 款模型作為評委，評估答案的充分性、事實準確性和文檔支持性。

評估分為兩個階段：首先評估響應是否符合資格，即是否充分回答了用戶請求；然後評估響應的事實準確性，即是否完全基於所提供的文檔，有沒有出現「幻覺」，然後基於該模型在所有示例上的平均得分，最終計算得出。

在 FACTS Grounding Benchmark 中，Google的 Gemini 模型在事實準確的文本生成方面取得了最高分。

IT之家附上參考地址