對話,不是AI交互的終極答案?
人機交互方式,被認為是AI時代最重要的變化之一。
在這個交互革命的故事里,以對話為代表的自然語言被認為將取代傳統GUI(圖形界面)的交互方式。原因看上去很簡單,因為對話更接近於人類現實世界的溝通方式。
但並不是所有人都這麼認為的。不久前,國外一位名叫Julian Lehr的作者,就寫了一篇《反對對話式界面(LUI)的理由》文章。
在這篇文章里,作者從數據傳輸的視角,詳細闡述了分析人機交互方式的邏輯,最終得出結論:語音這種新的交互形態更多是現有交互形式的補充,並不能完全取代GUI交互。
原文鏈接:
/ 01 /
自然語言的第N次革命
每隔幾年,就會出現一個耀眼的人工智能新進展,科技界人士就會大呼「就是它了!下一個計算範式來了!以後我們只會用自然語言了!」。
但之後一切實際上都沒發生改變,我們仍然像以前一樣使用計算機,直到幾年後這場爭論再次浮出水面。
我們已經經歷過幾次這樣的週期:虛擬助手(Siri)、智能揚聲器(Alexa、Google Home)、聊天機器人(「對話商務」)、AirPods即平台,以及最近的大型語言模型。
不知道為什麼大家都會對對話很癡迷。或許是人們看到「自然語言」這個詞,就會想:「好吧,如果它是自然的,那它一定是合乎邏輯的最終狀態。」
但我告訴你,事實並非如此。
/ 02 /
自然語言,一種數據傳輸機制
當人們說「自然語言」時,他們指的是書面或口頭交流。自然語言是人類之間交換思想和知識的一種方式。換句話說,它是一種數據傳輸機制。
在數據傳輸機制里,有兩個關鍵因素:速度和損耗。
速度決定了數據從發送方傳輸到接收方的速度,而損耗則是指數據傳輸的準確性。理想情況下,數據傳輸能以最高速度(即時)和完美保真度(無損)進行,但這兩個屬性通常需要權衡。
那麼,自然語言在速度上表現如何呢?

需要指出的是,這些數據點只是非常簡化的平均值。這張表格中重要的部分並非單個數字的準確性,而是整體模式:我們接收數據(閱讀、聆聽 )的速度明顯快於發送數據(寫作、說話)。這就是為什麼我們可以以2倍速收聽播客,但不能以2倍速錄製。
為了更好地理解書寫和說話的速度,我們以每分鐘1000-3000個單詞的速度形成思維。自然語言雖然很自然,但它卻是一個瓶頸。
然而,想想你與他人的日常互動,你會發現大多數交流都感覺非常快捷高效。這是因為自然語言只是我們眾多可用的數據傳輸機制之一。
比如,與其說「我覺得你剛才說的主意很棒」,我不如直接豎起大拇指,或者點點頭,或者乾脆笑一笑。
手勢和麵部表情實際上是一種數據壓縮技術。它們以更緊湊但損耗更大的形式對信息進行編碼,以便更快、更方便地傳輸。

自然語言非常適合需要高保真度的數據傳輸(或作為異步通信的數據存儲機制),但只要有可能,我們就會切換到其他更快捷、更省力的溝通方式。因為速度和便捷永遠信息交互中,最重要的事情。
我最喜歡的真正輕鬆溝通的例子,是我對祖父母的記憶。在早餐桌上,我的祖母從來不用開口要黃油——我的祖父似乎總是會下意識地把黃油遞給她,因為結婚五十多年後,他能感覺到祖母要黃油了,他們就像心靈感應一樣。
這就是我想要與我的計算機建立的關係類型。
/ 03 /
為什麼對話不是最佳答案?
與人與人之間的交流類似,人與計算機之間也存在不同的數據傳輸機制來交換信息。在計算機發展的早期,用戶通過命令行與計算機交互。這些基於文本的命令實際上是一種自然語言界面,但需要精確的語法和對系統的深入理解。
GUI(圖形用戶界面)的引入主要解決了一個發現問題:無需記住確切的文本命令,現在可以通過菜單和按鈕等可視化元素導航和執行任務。這不僅讓操作變得更容易,也更加便捷:點擊按鈕比輸入長文本命令更快。
今天,我們生活在一個將圖形界面與基於鍵盤的命令相結合的生產力平衡中。
我們仍然使用鼠標來導航並告訴計算機下一步做什麼,但日常操作通常以快速鍵盤按下的形式來傳達:⌘ b將文本格式化為粗體,⌘ t打開新選項卡,⌘ c / v快速將內容從一個地方複製到另一個地方,等等。
然而,這些快捷方式並非自然語言。它們是另一種形式的數據壓縮。就像豎起大拇指或點頭一樣,它們幫助我們更快地溝通。
現代生產力工具將這些數據壓縮快捷方式提升到了一個新的高度。在Linear、Raycast或Superhuman等工具中,每個命令都只需按一下鍵即可完成。
一旦建立了肌肉記憶,數據輸入就會變得毫不費力。這幾乎就像在早餐桌上有人遞上黃油,而無需開口索要一樣。
觸控界面被認為是人機交互進化史上的第三個關鍵里程碑,但它一直以來都更多地是對桌面計算的增強,而非替代。智能手機非常適合「遠離鍵盤」的工作流程,但重要的生產力工作仍然在桌面上進行。

這是因為文本並非移動設備原生的輸入機制。實體鍵盤感覺就像身心自然延伸,但在手機上打字總是有點不方便——這體現在數據傳輸速度上:移動設備上的平均打字速度僅為每分鐘36個字,明顯低於桌面設備上每分鐘約60個字的速度。
我們已經能夠用移動設備專用的數據壓縮算法(例如表情符號或Snapchat自拍)取代自然語言,但我們從未找到過與鍵盤快捷鍵相當的移動端應用。想想看,為什麼iPhone推出近20年後,我們仍然沒有一款真正以移動為先的生產力應用?

你可以會說,語音為什麼不會取代文本?從數據上看,語音信息的使用量正在增加。
雖然說話(每分鐘150字)確實比打字(每分鐘60字)傳輸數據更快,但這並不意味著它就是一種更好的與計算機交互的方式。
過去我們總認為,Alexa或Siri這樣的語音界面之所以失敗,是因為AI不夠智能。但這隻是故事的一半。
交互的核心問題從來不是輸出功能的質量,而是輸入功能的不便:
像「嘿,Google,今天舊金山的天氣怎麼樣?」這樣的自然語言提示,比直接點擊主屏幕上的天氣應用要花10倍的時間。
大模型(LLM)並不能解決這個問題。它們的輸出質量正在以驚人的速度提升,但輸入方式卻與我們現有的相比大相逕庭。我明明可以直接按個按鈕或鍵盤快捷鍵,為什麼還要用自然語言描述我想要的操作呢?直接遞給我黃油就行了。
/ 04 /
對話式UI,更像是現有交互的增強
這並不是說大模型不好。事實上,這篇文章就是在大模型幫助下完成的。
但與典型的人機指令不同,與大模型的交互更像是一次真誠、深入的對話和思想交流。在這種特殊的工作流程里,交互的速度並不是最重要的因素。
值得注意的是,ChatGPT開闢了一個新的應用場景,而沒有取代現在其他的軟件。
這就是我的核心論點:對話界面的不便性和較差的數據傳輸速度,使得它們不太可能取代現有的交互模式,他只是對現有計算交互的一個補充。
讓我印象比較深刻的對話式交互的應用案例是,在一次黑客馬拉松比賽中,個團隊將亞馬遜Alexa改造成了《星際爭霸II》的遊戲內語音助手。語音沒有取代鼠標和鍵盤,而是作為一種額外的輸入機制,增加了數據傳輸的帶寬。
你會發現,同樣的模式適用於任何類型的知識型工作,當你忙於其他事情時,語音命令就成了一種便捷的交互方式。
我們不會用聊天界面取代Figma、Notion或Excel,也不需要在這些工具和大模型之間頻繁切換。
相反,AI應該充當一個始終在線的命令元層,可以調用所有工具。用戶應該能夠通過簡單的語音提示從任何地方觸發操作,而無需中斷當前正在使用鼠標和鍵盤的操作。
要實現這一點,AI需要在操作系統層面發揮作用。它不僅是單一工具的界面,而是跨工具的界面。
正如Kevin Kwok寫道:「生產力和協作不應是兩個獨立的工作流程。」雖然他指的是人與人之間的協作,但在人與人工智能協作的世界里,這句話更加貼切,因為生產力和協作之間的界限正變得越來越模糊。
我們要做的的第二件事是。如何壓縮語音輸入以加快傳輸速度。
比如,在語音交互里,什麼話相當於豎起大拇指或鍵盤快捷鍵?或許我能用簡單的聲音和口哨更快地提示克羅達嗎?ChatGPT是否應該有權訪問我的攝像頭,以便它能夠根據我的面部表情實時更改答案?
畢竟,作為輔助界面,速度和便利性才是最重要的。
/ 05 /
總結
我並不是反對對話界面,而是反對將其作用過度誇大。
我們花了太多時間思考人工智能如何替代(界面、工作流程和工作),卻很少思考它如何補充。
從過去看,技術的進步很少遵循簡單的替代路徑。它往往開啟了全新的、前所未有的事物,而不僅僅是取代之前的一切。
這一點也在AI上也同樣適用。未來,聊天界面並不是要取代現有的計算範式,而是要增強它們,使人機交互變得輕鬆自如。