被噴了這麼多年,圖靈測試這老東西居然還沒涼?

先問大家一個問題,僅憑聊天,你能判斷出對方是個怎樣的人嗎?

來看看這段聊天記錄,你可能會得出結論,對方是個宇宙無敵大懶狗。

但要是我跟你說,對面壓根就不是人,你敢信?

這事情,就跟科學史上的典中典,圖靈測試有關。

一直以來,大夥都把這測試當成衡量 AI 智力的標準。咋測呢?就是讓人跟 AI 聊天,要是人類分不清對面是 AI 還是人,那這 AI 就算贏了。

不過這圖靈老爺子都去世七十多年了,圖靈測試似乎依舊是AI圈的一座「指路明燈」。

在 2024 年,GPT-4 就挑戰了圖靈測試,並以 54% 的勝率成功拿下。

要知道這圖靈測試的及格線是30%,這成績已經算是妥妥的優秀了。

當時加州大學聖地亞哥分校的研究讓 500 名參與者和四個 「對話者」(包括真人、某古董機器人 ELIZA、GPT-3.5 和 GPT-4)進行 5 分鐘交流,結果近六成的人被 GPT-4 的演技忽悠了,其他AI都沒邁過30%的坎兒。

前段時間,又有人拿最新的 GPT4.5 去做了測試。結果表明,它不僅通過了圖靈測試,更絕的是,它被當成人類的概率比真人還高!好傢伙,這下真有人活得還不如人機了。

所以,這麼多年了,這玩意憑什麼還在屹立不倒呢?

要知道,在計算機還在用打孔紙帶存儲的年代,圖靈就提出了這個測試。這是因為當時的人們還搞不清人類思維的本質,要研究機器怎麼思考,就更無從下手了。

所以圖靈就想,我們不糾結本質,直接看它的表現不就行了?就像一個東西,看起來像番茄,吃起來像番茄,那它就是番茄啊!如果機器有智慧,那它就應該表現得像人。

不過誰能想到,直到今天,科學家還沒搞清人類大腦的運作方式。。所以這玩意退不了休,也有它的道理。

但江江其實一直有一個疑問,這圖靈測試真有那麼神嗎?跟你對個話就說明AI有思考能力,是不是有點兒太草率了。

我上網搜了一下,不少網民也懷著一樣的看法:都5202年了,圖靈測試早就過時了

其實吧,這玩意兒自從提出,在業內反對聲就一直不少。

早在1980年,加州伯克利的一位教授就提出,圖靈測試根本沒用。他舉的例子是,把一位英語母語的人關在房間中,然後向屋裡傳遞中文寫成的問題,而屋裡有一本英漢雙語的答案書。這樣他只需要每次收到問題,去找答案,抄下來,再把答案遞出去就行了,根本不用思考問題。

這確實是圖靈測試的一個大bug——它只看答案,不需要看過程。

而且,它的bug還不止一個。1966 年,MIT 有個教授整了個聊天機器人 ELIZA,它能用簡單又模糊的回覆,讓你覺得它好像懂你。下面這段對話,乍一看沒什麼問題,仔細一琢磨,ELIZA 就是個純純複讀機!但還真能騙過一部分人類。。

2014年,一位程序員宣佈,他的程序成功通過了圖靈測試。但他的辦法讓人直呼神人,他讓該程序偽裝成一個13歲烏克蘭男孩兒,而提問者是英語母語者,這就導致提問者覺得,對方是小屁孩而且語言不通,胡言亂語很正常。

很明顯,這些機器人把重心放在了「糊弄人類」,而不是「思考答案」上,測試的人直呼被耍了。

這事情也讓好多人開始對圖靈測試火力全開。

2014年著名科技雜誌IEEE Spectrum的一篇文章就提出,圖靈測試真不行,威諾格拉德測試才是未來!

這威諾格拉德測試呢,就是給機器出點常識性填空題,比如:

獅子吃斑馬是因為「它們」是捕食者,這裏的 「它們」 指的是 「斑馬」 還是 「獅子」 呢?

這題人一眼就能答出來, AI 就得犯難了。

2020年,亞馬遜的首席科學家 Rohid 也發文稱,圖靈測試早該淘汰了!

紐約大學教授蓋瑞·馬庫斯甚至直言:這玩意早過時了,我希望人們忘記它,但人們忘不掉它。

這麼看,大夥對圖靈測試積怨已久啊。

但其實,也不能怪大夥。就連圖靈本人,也沒有對圖靈測試進行嚴格定義。這就導致,圖靈測試像個框,什麼都能往里裝。

就拿GPT4.5這篇文章來說,實驗數據是1023場對話,平均長度8條消息,持續4.2分鐘。這麼短的對話,讓很多人直接開噴,這也算聊天兒?

雖說圖靈在 1950 年的文章里提到過,開始對話 5 分鐘後,人類認出 AI 的機率不超過 70% 就算通過。但那也是基於當時的技術水平猜的一個標準,現在 AI 發展得這麼猛,還這麼低的標準,確實有點兒跟不上趟了。

再說了,現在的大模型說話賊像人,一般人根本分辨不出來。但它真的會思考嗎?別看它整天整些 「深度思考」 的架勢,本質上,它根本不理解自己輸出的東西,更別說情感了。

就連不同的人,對不同的AI的分辨能力也不一樣。就像打了一百遍的Boss,遠不如初見殺的時候有殺傷力。資深AI用戶去參加圖靈測試,認出AI的概率肯定更高,那麼問題來了,要給AI搞個難度分級,一路從人類小兵幹到最終人類Boss,才算通關嗎?

這樣看,圖靈測試這玩意bug還真挺多,確實沒什麼說服力了。

但老實說,人們現在糾結圖靈測試過不過時,可能並不是圖靈老爺子想看到的事情。

就像老爺子在他的經典論文《Computing Machinery and Intelligence》里寫道:「我們希望機器能在所有智力領域與人類競爭,但最好的起點在哪裡?我也不知道。」說到底,他也只是在一個領域,提出了一種可行的解法罷了。被後來的人奉為圭臬,也是他根本沒想到的事情。

而現在,ChatGPT能寫出比大多數人還好的文章,Claude能指揮你的電腦開始幹活,我們卻還在嘲笑AI通不過圖靈測試,是否有點一葉障目了?

圖靈從來沒有說過,通過了我的測試,AI才算成功。他真正想看見的,只是人類的無限進步罷了。

本文來自微信公眾號「差評前沿部」,作者:不咕,編輯:江江,36氪經授權發佈。