人類的認知協議

本系列分兩篇,本篇為上:

  • 上篇:人類的認知協議,AI 如何服務於人

  • 下篇:世界的物理接口,AI 如何鏈接萬物

前置問題:Prompt 是什麼? 

答:翻譯官,能填補人類與 AI 的認知差異

人,擅長具象,習慣用類比的方式,借由已知去理解未知。

比如,如果被小朋友問到「什麼是卡茲克?」

我會說:「一個螳螂,遊戲里的,不耐揍」

注意,這裏我會引入一個小朋友見過的東西螳螂,然後再加上一些限定詞:遊戲里的不耐揍

AI,是概率的集合。

在 AI 眼中,世界是概率的,所做之事,是不斷預測下一個詞。

比如,在 GPT 的眼中卡茲克,就是下面這一連串的概率。

正是這種思維方式的不同,讓我們有了 Prompt:通過定義角色、約束範圍和明確目標,來將人類意圖,轉化為 AI 的執行

但這隻解決了一半問題:AI 理解人類了,但人類依然不理解 AI。

AI 回應人類時,依舊按照其本能輸出,並不在乎人的認知需求

  • 喜歡多感官的信息:說話時,我們會用語氣、表情、手勢來傳遞豐富的信息

  • 需要更清晰的結構:閱讀時,我們喜歡合理分段、標註重點,而不是一篇純文本

  • 無法保持長效注意力:上高數的時候,如果前面一句話沒搞懂,後面就再也聽不懂了

  • 珍視更深的情感共鳴:聽故事的時候,我們更容易記住那些讓我們笑過、哭過的情節,而不是乾巴巴的數字

Prompt 讓人類更好地使用 AI,AI 也需要更好地服務人類:在設計 AI 產品時,基於人類的認知協議,去做更深層次的雙向適配。

人是感官動物

下面的內容,是典型的 AI 生成,很枯燥,沒人想讀。

從基礎模型到實際應用的關鍵環節

基礎模型通過模型廠商利用海量數據訓練的大規模語言模型,為 AI 應用提供基礎能力。它奠定了 AI 應用的性能上限。在基礎模型的基礎上,通過引入專業領域數據進行模型微調,由專業用戶針對特定領域優化模型,提升專業場景的準確度並降低錯誤率。為了進一步增強模型的能力,加入知識增強技術(RAG),通過模型自動實時檢索外部知識庫並融合生成回答,從而顯著降低幻覺現象,並提供可溯源的準確信息。在終端應用中,通過提示詞優化技術,用戶可以通過優化輸入提示直接影響輸出質量,這是最容易掌握的優化方法。

下面這一段內容,也是 AI 生成的,但易於閱讀

Prompt

「圖解大模型從預訓練到終端用戶 prompt 發生了什麼,以及重要性」

AI 系統演進圖解

從基礎模型到實際應用的關鍵環節

基礎模型

Base Model

由模型廠商通過海量數據訓練的大規模語言模型,為AI應用提供基礎能力。

重要性:

奠定了AI應用的性能上限。

模型微調

Fine-tuning

由專業用戶針對特定領域優化模型。

重要性:

提升專業場景準確度,降低錯誤率。

知識增強

RAG

模型自動實時檢索外部知識庫增強回答。

重要性:

顯著降低幻覺,提供可溯源的準確信息。

提示詞優化

Prompt Engineering

終端用戶優化輸入提示獲得更好結果。

重要性:

直接影響輸出質量,是最容易掌握的優化方法。

區別在哪?

  • 信息不再是文本,而是有重點的、結構化的圖文。

  • 先用版式建立關聯,再用動畫輔助認識,最後是文字深入細節。

  • 通過這種方式,降低認知負擔,減少閱讀壓力。

於是,我們在開始探索更豐富的多模態交互方式:比如嘗試將圖形界面 GUI,語言界面 LUI,乃至聲音界面 VUI 更加融洽的結合。

這裏我舉兩個例子,都來自前幾天的 OpenAI 開發者大會:《來自現場:OpenAI 把實時交互,捲到了新高度》

場景一:數據庫構建的混合交互

Supabase 是一個數據庫產品,提供如 Postgres database, Authentication 等服務。

在其最新產品中,借由鼠標點選和自然語言交互,快速地更改數據庫結構,或者生成對應查詢語句。這種交互方式既保留了 GUI 的直觀性,又融入了 LUI 的靈活性。 

Chatbot,也可以和 GUI 融合

場景二:實時天文解說

前幾天,這一 API 支持到了 Function Calling。這意味著即便是語音交互,也不再拘泥於單純的聲音傳遞,而是可以進行如操作電腦、聯網、查找資料等功能。在發佈會現場,演示人展示了如何「言出法隨」操作天體。

現場聲控演示,效果驚豔

這些有趣的探索,不再滿足單純的信息傳遞,而是試圖讓 AI 貼近人腦的思考和表達:

  • 縱向上,它學會了先說重點、再談原因、最後深入

  • 橫向上,它開始讓視覺、動畫和聲音在恰當的時機出現

多種感知通道不是簡單疊加,而是如交響樂般默契配合,在恰當時機調動視覺、動畫和聲音來傳遞信息。

或許,好的 AI,不僅應該更「智能」,還應該更「自然」 – 更接近人類認知的認知協議。

人,頭腦簡單,要順著

我們總會把零散的事件,編織成故事。

比如當年「賈君鵬,你媽媽喊你回家吃飯」爆火,我們就會開始尋找原因:「是不是公關給了壓力」,「是不是貼吧沒活硬整」。

當一個公司突然倒閉,自媒體上,就會看到一個完整的衰落史:「從他們更換了那個 CEO 開始」,「自從轉型做 To B 就註定要完」。

我們有足夠強的興致,將任何事情歸因,哪怕相信一個漏洞百出的故事,也不願承認很多事情就是偶然和隨機的疊加。

我們的世界,何嚐不是一隻貓?

這並不是壞事,對於經驗和刻板印象的依賴,會幫助我們節省太多的精力,比如:

  • 挑餐廳的時候,選人多的,大概率比較新鮮好吃

  • 看到賽博禪心推送的時候,總認為是最好、最新的內容(bushi

在新事物前,我們也會不自覺的去聯繫以往經驗:

  • 電流就像水流,電壓就像水位

  • 大氣環流像燒熱水,熱空氣上升,冷空氣下沉

  • 原子結構像是太陽系,原子圍繞著原子核,像是行星圍繞著太陽

類比雖不準確,但也是我們理解新事物的腳手架,幫助我們從已知過渡到未知。

用蹦床,模擬相對論

我們記不住太多東西。數字大於 7 位的時,就很難一次記下。

如果手機號是「13812345678」,就會被分段記成類似「138-1234-5678」。

在記憶時,我們還需要去找場景,否則也會很快忘掉:

  • 狼人殺教不會,打一邊就會

  • 麻將教不會,搓一把就會

  • 代碼看再多的書都記不住,得上手做項目

如果內容不能結合上手,可能不會留下記憶。

網傳的胡牌公式,反正我不會打

這些都是基因的選擇,需要我們去配合:

  • 把複雜的並行信息編織成一個個引人入勝的故事

  • 善用類比,用熟悉的事物解釋陌生的概念

  • 控制好節奏,讓信息量不會讓大腦過載

  • 創造應用場景,讓知識找到它的用武之地

人是情緒動物

情緒,是認知世界的重要工具。我們自傲的理性,其底色也都是情緒。

人類對世界的認知,總伴隨著情感的投射。比如古人會把雷電,想像成天神發威;現代人會給自己的玩偶,起各種名字。

以至於這兩天有了一個爆款小程序:狸譜Lipu 的《靈魂提取器 》- 拍攝/上傳物體照片,AI 就能將其轉化為擬人化角色。

把生活中的物件,變成二次元萌娘

這並非是幼稚,而是基因的傳承:用情感化的方式,快速理解世界。

信息伴隨情感之時,大腦會調動更多的神經來處理:杏仁核標記情感,海馬體儲存記憶,前額葉也會更優先分配注意力,讓一切信息變得更加豐富立體、鮮活。這種情緒機制,也在幫我們決定什麼值得注意,什麼該被記住,什麼需要思考。

在面對選擇時,大腦會自動調用過往的情感經驗作為決策依據。這雖然不夠理性,卻能幫我們在複雜環境中快速快速決斷。

布嘌呤半升

豈能久居人下

須知:情緒不是理性的對立面,而是認知的催化劑。

以及:未來最成功的 AI,一定既能解決問題,又能觸動人心。

人,注意力有限

好友 Owen,也是沉浸式翻譯的作者,提到過一個點:「最寶貴的,是注意力自由」

是啊,人沒有足夠精力,去完成所有的事情:每天做不了多少事,便沒了力氣。

所有的抱怨,都是人和事情的失調,是機遇。

我不擅長寫前端。

之前每有需求,就是讓 ChatGPT 來寫,然後人工貼到 VSCode,報錯了再回去問。

如此反復,很耗心力。

而如果我用 Claude,便可通過 Artifact 直接渲染,節省了許多不必要的精力損耗。

🏀和🐔,是有共同點的

bolt.new 則更進一步,將環境完整搬到瀏覽器,支持更多文件的讀寫,這使得我可以完成更為複雜的。比如,這裏我用純自然語言,讓他幫我做了一個 API 接口測試對比工具。

按正常開發,這個東西我得寫一週

在內容消費方面,如何有效利用注意力的問題同樣重要。同樣的內容,在不同的設備上,都會被以更好的方式渲染:

  • 在手機這樣的小屏上,內容會自動重組,突出核心信息

  • 在電腦等大屏設備上,則能呈現更豐富的細節和交互選項

本篇內容,手機和電腦顯示不同

這種展示方式,被稱之為「響應式設計」,Responsive Design。

隨著 AI 的加入,相信我們還可以擁有「響應式 AI」:根據使用場景和讀者的偏好,動態的調整內容及交互。例如:同樣的內容,AI 可以在嘈雜場景中強調視覺信息,在運動場景中則用聲音提醒。

這是一個轉變:產品從等待用戶分配注意力,到主動優化認知資源。

人類認知協議

我們曾經的內容表達,局限於常規預設:文字、靜態圖表、簡單對話。

但這並無法發揮 AI 的潛力,甚至帶來了 AI 的融入困難。

或許,我們應重新審視:

大腦習慣於信息的分層理解。AI 的輸出應建立於邏輯分層:核心結論直接可見,支持邏輯和背景次之,深度細節作為擴展選項。比如,展示技術方案時,會先看到直接效果,再瞭解到背後的機制,最後決定是否進一步探索細節。

比起靜態文字,我們更喜歡視覺化的動態信息。多模態的表達,可以使信息更生動:視覺化簡化複雜關係,動畫展示變化過程,聲音和觸覺強化關鍵提醒。這些形式並非互相疊加,而應動態結合,形成一種協同的信息傳遞。並且:多使用 Function Calling 吧,方法都在文檔里。

情感體驗至關重要。信息的最佳載體是情感,當內容帶著適當的情緒,大腦會本能地加深理解和記憶。這啟發了 AI 的表達藝術:不僅傳遞答案,更要在恰當的場景中喚起共鳴。

可交互性,是關鍵。傳統的信息展示是單向的獨白,而 AI 讓內容變成了雙向對話。通過實時交互和即時反饋,我們不再是內容的被動接收者,而是共同創作者。

屬於 AI 的響應式。AI 的輸出,不應是千篇一律的答案,而應像變色龍般適應環境。在手機上它是簡潔的決策助手,在電腦前它是全面的分析工具,在嘈雜環境它側重視覺,在運動場景它善用聲音——始終以最適合當下場景的方式傳遞信息。

認知即接口:我們會不斷探索人類的認知模式,然後設計出更自然的人機交互:AI 未來的輸出,或不再是單純的「答案」,而是一種體驗。