AI 時代,語音會成為主流交互方式嗎

作者|唐健博郵箱|tangjianbo@pingwest.com

語音交互正在成為我們生活中的一部分。

十年前,如果讓你開口和手機對話。你會覺得非常違和。

十年後,我們現在每天都會對著手機講話,而且是和它交流的那種。

其實五年前我接觸過一個新產品,全智能電飯煲,產品方稱用戶可以與電飯煲對話,告訴它什麼時候煮好飯。我當時腦子裡出現過一萬個疑問,「它煮飯,誰放米?」 「我為什麼要和一個電飯煲說話?」 「我瘋了吧我」……

換到今天,雖然交互會有一些差異,但我已經習慣了在家叫智能音箱開電視、設置掃地機器人工作時間。你不得不承認,當年 4G 的滾滾洪流來臨時,主打發送語音的微信抓住了移動互聯網的紅利,但飛信卻在那之後沒落,是有原因的。

小拇指的手繭見證了一次人與手機交互方式的轉變,語音則是在努力搶奪人機交互方式的話語權。

從鍵盤到觸屏,再跳出屏幕

在 iPhone 風靡全球之前,市場上並不缺乏觸屏手機。

Nokia、Motorola、BlackBerry 等等企業將實體按鍵的手機做得登峰造極,也鑄就了手機歷史上最璀璨的一個篇章。

精密的實體按鍵是手機的標配。實體按鍵無疑有著非常明顯的優勢:精確、可盲打、可替換。這些優勢如今依然在其它設備上有所體現。即使現在的品牌試圖將手機打造成純粹的 unibody 的產品,也跳不出實體按鍵的束縛。

只是蘋果將觸屏的優點無限放大,為它匹配了自然的操作邏輯——左滑右滑上滑下滑,當然你也可以點擊,甚至向屏幕下重重地按下去。蘋果為這塊觸摸屏賦予了符合直覺的、豐富的操作方式。

儘管大家都覺得 iPhone 是觸屏手機的開創者,但它花了近 3 年時間優化系統,讓這個彼時的異類更加好用。

某種程度上來說,人類是懶惰的,科技的發展也促使人類更加懶惰。因此用戶自然會選擇省力的、不費腦子的那條路——就跟如今短影片如此風靡一樣。

站在交互邏輯的角度,觸屏跳脫出了硬件固定的位置,讓手指可以隨心所欲地在屏幕上進行操作。就像 PC 時代,鼠標剛出現時,用戶能夠完成「所見即所得」的操作一樣。而軟件所需要做的,就是為這塊屏幕匹配一個合理的操作 UI。

屏幕越來越大,則是另一個趨勢。人們總是會追求更大的屏幕,甚至更多的屏幕。凱文基利在他的著作《必然》當中提到過「屏讀」,即任意表面都可以是屏幕,屏幕會越來越多。現在來看,預言正在成真。

充斥於我們生活里的科技產品,屏幕越來越多,就連智能汽車也在比拚誰的屏幕大、誰的屏幕多。於是到這裏新的問題出現了,當屏幕越來越多、越來越大的時候,我們應該如何與它們進行交互?

烽煙傳訊,聲音遠控

人與屏幕的交互範圍受人體影響,即你的手掌有多大,就能覆蓋多大面積的手機屏幕——祖比斯曾說手機的黃金尺寸是 3.5 英吋不是沒有道理,那是正常人手掌尺寸能覆蓋整個屏幕的大小。

在真實場景中,手臂與屏幕的距離也決定你是否能直接進行操作。雖然你與電視能夠用遙控器進行操作,但智能音箱不可能都配上一個遙控器。

遠距離通信,古代有烽煙傳訊,今天有智能語音,尤其是 AI 時代。

語音交互的優點顯而易見。你在家可以聲控智能家居,上車可以聲控智能汽車,躺在床上,你也可以向手機發出一堆語音指令。這符合科技發展規律,畢竟人就是這樣變懶的。

其次,語音對話是最基本的交流方式。文字出現之前,人類就有了豐富的語言系統。在即時通訊軟件高度發展的今天,你甚至可以不懂打字就能和千里之外的親戚朋友聊天。

過去我們之所以會覺得與手機「對話」奇怪,是由於沒有對象感。但是今天,即時通訊軟件讓我們習慣了對著手機發出對話信息,如 ChatGPT 一樣的 AI 語音助手又發展出了聊天技能,人與手機進行對話已經成為了現實。

從技術的角度來說,加入 AI 的自然語義識別正逐漸變得更加擬人化,AI 語音助手能夠接收、結合背景、分析你所說的全部話語,並給出相應的答案。隨著技術的進步,端側運算能力增強,從語音指令發出再到設備給出答案,時間間隔將會越來越小,無限接近人與人的自然對話。

這樣才不會出現你在發佈會上,對著電腦喊計算表格,半天出不來結果的情況。

語音,最低成本的交互方式

語音交互技術其實已經有了數十年的發展歷史,從簡單的單詞識別到現在的複雜語境識別,甚至做出推測,從技術角度來看,語音已經做好了登上前台的準備。

而對於用戶來說,語音是最低成本的交互方式。它符合直覺,即時響應,沒有學習門檻。在人機交互領域,它也能實現跨設備、跨系統、跨距離的交互,幾乎無處不在。

在 AI 時代真正來臨前,德勤就已經發佈過《德勤交互式人工智能白皮書:交互式人工智能正在重塑人機交互》,報告中稱「隨著技術的進一步發展,預計語音交互將在更多領域展現其價值,成為人機交互的重要方式」。

邁過了對話違和感、技術門檻以及普及率三大關之後,語音交互無疑具有極大的潛力,去改變我們與設備、機器交互的方式,尤其是手機。蘋果從 Siri 到 Apple Intelligence 描繪出了一張碩大的 AI Phone 藍圖,而另一邊國產廠商也在奮起追趕,HarmonyOS NEXT、ColorOS 15、OriginOS 5 等等系統,都將推出屬於更好用的 AI 語音助手和聊天機器人。

從鍵盤到觸屏,再到跨空間的高效語音交互,人機交互的時代即將翻篇。

而我在這一頁的最後,依舊用文字詢問了 ChatGPT 和豆包,它們認為語音是否能成為 AI 時代的主流交互方式,它們都給出了肯定的答案。

** 頭圖由豆包 AI 生成,提示詞:手機、人類、對話、斜45度角