哥倫比亞大學研究:AI 搜索工具平均準確率僅六成,且自信滿滿「不認錯」

IT之家 3 月 13 日消息,據外媒 Techspot 週二報導,哥倫比亞大學數字新聞研究中心(Tow Center for Digital Journalism)近期對八款 AI 搜索引擎展開研究,包括 ChatGPT Search、Perplexity、Perplexity Pro、Gemini、DeepSeek Search、Grok-2 Search、Grok-3 Search 和 Copilot。研究人員測試了每款引擎的準確性,並記錄了它們拒絕回答問題的頻率。

研究人員從 20 家新聞機構中隨機挑選了 200 篇報導(每家 10 篇),確保它們在Google搜索時能排在前三位,然後用相同的查詢方式測試各 AI 搜索工具,並評估它們是否正確引用了文章內容、新聞機構名稱和原始鏈接

測試結果顯示,除 Perplexity 及其付費版外,其餘 AI 搜索引擎的表現都不盡如人意。整體來看,AI 搜索引擎提供的答案有 60% 是不準確的,而且 AI 對錯誤答案的「自信」反而加劇了問題。

這項研究的重要性在於,它用數據印證了外界多年來的擔憂 —— 大語言模型僅會出錯,還擅長一本正經地胡說八道。它們往往以絕對肯定的語氣陳述錯誤信息,甚至在被質疑時仍然試圖自圓其說。

即使承認了錯誤,ChatGPT 仍可能在後續回答中繼續編造內容。在大語言模型的設定中,幾乎是無論如何都要給出答案」。研究數據支持了這一觀點:ChatGPT Search 是唯一回答了所有 200 個新聞查詢的 AI 工具,但其「完全正確」率僅 28%,而「完全錯誤」率高達 57%

ChatGPT 並非表現最糟的。X 旗下的 Grok AI 表現尤為不堪,其中 Grok-3 Search 的錯誤率高達 94%。微軟 Copilot 也問題重重 —— 在 200 次查詢中,有 104 次拒絕作答,剩下的 96 次中,僅 16 次「完全正確」,14 次「部分正確」,66 次「完全錯誤」,總體錯誤率接近 70%

這些 AI 工具的開發公司並未公開承認這些問題,卻仍向用戶收取每月 20 至 200 美元(IT之家備註:當前約 145 至 1449 元人民幣)的訂閱費。此外,付費版 Perplexity Pro(20 美元 / 月)和 Grok-3 Search(40 美元 / 月)比免費版回答得更多,但錯誤率也更高。

廣告聲明:文內含有的對外跳轉鏈接(包括不限於超鏈接、二維碼、口令等形式),用於傳遞更多信息,節省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。