科技

人類的認知協議

12月03日 09:14 新浪網 tech-auto-hilite

本系列分兩篇，本篇為上：

上篇：人類的認知協議，AI 如何服務於人
下篇：世界的物理接口，AI 如何鏈接萬物

前置問題：Prompt 是什麼？

答：翻譯官，能填補人類與 AI 的認知差異

人，擅長具象，習慣用類比的方式，借由已知去理解未知。

比如，如果被小朋友問到「什麼是卡茲克？」

我會說：「一個螳螂，遊戲里的，不耐揍」

注意，這裏我會引入一個小朋友見過的東西螳螂，然後再加上一些限定詞：遊戲里的、不耐揍

AI，是概率的集合。

在 AI 眼中，世界是概率的，所做之事，是不斷預測下一個詞。

比如，在 GPT 的眼中卡茲克，就是下面這一連串的概率。

正是這種思維方式的不同，讓我們有了 Prompt：通過定義角色、約束範圍和明確目標，來將人類意圖，轉化為 AI 的執行。

但這隻解決了一半問題：AI 理解人類了，但人類依然不理解 AI。

AI 回應人類時，依舊按照其本能輸出，並不在乎人的認知需求：

喜歡多感官的信息：說話時，我們會用語氣、表情、手勢來傳遞豐富的信息
需要更清晰的結構：閱讀時，我們喜歡合理分段、標註重點，而不是一篇純文本
無法保持長效注意力：上高數的時候，如果前面一句話沒搞懂，後面就再也聽不懂了
珍視更深的情感共鳴：聽故事的時候，我們更容易記住那些讓我們笑過、哭過的情節，而不是乾巴巴的數字
…

Prompt 讓人類更好地使用 AI，AI 也需要更好地服務人類：在設計 AI 產品時，基於人類的認知協議，去做更深層次的雙向適配。

人是感官動物

下面的內容，是典型的 AI 生成，很枯燥，沒人想讀。

從基礎模型到實際應用的關鍵環節

基礎模型通過模型廠商利用海量數據訓練的大規模語言模型，為 AI 應用提供基礎能力。它奠定了 AI 應用的性能上限。在基礎模型的基礎上，通過引入專業領域數據進行模型微調，由專業用戶針對特定領域優化模型，提升專業場景的準確度並降低錯誤率。為了進一步增強模型的能力，加入知識增強技術（RAG），通過模型自動實時檢索外部知識庫並融合生成回答，從而顯著降低幻覺現象，並提供可溯源的準確信息。在終端應用中，通過提示詞優化技術，用戶可以通過優化輸入提示直接影響輸出質量，這是最容易掌握的優化方法。

下面這一段內容，也是 AI 生成的，但易於閱讀

Prompt

「圖解大模型從預訓練到終端用戶 prompt 發生了什麼，以及重要性」

AI 系統演進圖解

從基礎模型到實際應用的關鍵環節

基礎模型

Base Model

由模型廠商通過海量數據訓練的大規模語言模型，為AI應用提供基礎能力。

重要性：

奠定了AI應用的性能上限。

模型微調

Fine-tuning

由專業用戶針對特定領域優化模型。

重要性：

提升專業場景準確度，降低錯誤率。

知識增強

RAG

模型自動實時檢索外部知識庫增強回答。

重要性：

顯著降低幻覺，提供可溯源的準確信息。

提示詞優化

Prompt Engineering

終端用戶優化輸入提示獲得更好結果。

重要性：

直接影響輸出質量，是最容易掌握的優化方法。

區別在哪？

信息不再是文本，而是有重點的、結構化的圖文。
先用版式建立關聯，再用動畫輔助認識，最後是文字深入細節。
通過這種方式，降低認知負擔，減少閱讀壓力。

於是，我們在開始探索更豐富的多模態交互方式：比如嘗試將圖形界面 GUI，語言界面 LUI，乃至聲音界面 VUI 更加融洽的結合。

這裏我舉兩個例子，都來自前幾天的 OpenAI 開發者大會：《來自現場：OpenAI 把實時交互，捲到了新高度》

場景一：數據庫構建的混合交互

Supabase 是一個數據庫產品，提供如 Postgres database, Authentication 等服務。

在其最新產品中，借由鼠標點選和自然語言交互，快速地更改數據庫結構，或者生成對應查詢語句。這種交互方式既保留了 GUI 的直觀性，又融入了 LUI 的靈活性。

Chatbot，也可以和 GUI 融合

場景二：實時天文解說

前幾天，這一 API 支持到了 Function Calling。這意味著即便是語音交互，也不再拘泥於單純的聲音傳遞，而是可以進行如操作電腦、聯網、查找資料等功能。在發佈會現場，演示人展示了如何「言出法隨」操作天體。

現場聲控演示，效果驚豔

這些有趣的探索，不再滿足單純的信息傳遞，而是試圖讓 AI 貼近人腦的思考和表達：

縱向上，它學會了先說重點、再談原因、最後深入
橫向上，它開始讓視覺、動畫和聲音在恰當的時機出現

多種感知通道不是簡單疊加，而是如交響樂般默契配合，在恰當時機調動視覺、動畫和聲音來傳遞信息。

或許，好的 AI，不僅應該更「智能」，還應該更「自然」 – 更接近人類認知的認知協議。

人，頭腦簡單，要順著

我們總會把零散的事件，編織成故事。

比如當年「賈君鵬，你媽媽喊你回家吃飯」爆火，我們就會開始尋找原因：「是不是公關給了壓力」，「是不是貼吧沒活硬整」。

當一個公司突然倒閉，自媒體上，就會看到一個完整的衰落史：「從他們更換了那個 CEO 開始」，「自從轉型做 To B 就註定要完」。

我們有足夠強的興致，將任何事情歸因，哪怕相信一個漏洞百出的故事，也不願承認很多事情就是偶然和隨機的疊加。

我們的世界，何嚐不是一隻貓？

這並不是壞事，對於經驗和刻板印象的依賴，會幫助我們節省太多的精力，比如：

挑餐廳的時候，選人多的，大概率比較新鮮好吃
看到賽博禪心推送的時候，總認為是最好、最新的內容（bushi

在新事物前，我們也會不自覺的去聯繫以往經驗：

電流就像水流，電壓就像水位
大氣環流像燒熱水，熱空氣上升，冷空氣下沉
原子結構像是太陽系，原子圍繞著原子核，像是行星圍繞著太陽

類比雖不準確，但也是我們理解新事物的腳手架，幫助我們從已知過渡到未知。

用蹦床，模擬相對論

我們記不住太多東西。數字大於 7 位的時，就很難一次記下。

如果手機號是「13812345678」，就會被分段記成類似「138-1234-5678」。

在記憶時，我們還需要去找場景，否則也會很快忘掉：

狼人殺教不會，打一邊就會
麻將教不會，搓一把就會
代碼看再多的書都記不住，得上手做項目

如果內容不能結合上手，可能不會留下記憶。

網傳的胡牌公式，反正我不會打

這些都是基因的選擇，需要我們去配合：

把複雜的並行信息編織成一個個引人入勝的故事
善用類比，用熟悉的事物解釋陌生的概念
控制好節奏，讓信息量不會讓大腦過載
創造應用場景，讓知識找到它的用武之地

人是情緒動物

情緒，是認知世界的重要工具。我們自傲的理性，其底色也都是情緒。

人類對世界的認知，總伴隨著情感的投射。比如古人會把雷電，想像成天神發威；現代人會給自己的玩偶，起各種名字。

以至於這兩天有了一個爆款小程序：狸譜Lipu 的《靈魂提取器》- 拍攝/上傳物體照片，AI 就能將其轉化為擬人化角色。

把生活中的物件，變成二次元萌娘

這並非是幼稚，而是基因的傳承：用情感化的方式，快速理解世界。

信息伴隨情感之時，大腦會調動更多的神經來處理：杏仁核標記情感，海馬體儲存記憶，前額葉也會更優先分配注意力，讓一切信息變得更加豐富立體、鮮活。這種情緒機制，也在幫我們決定什麼值得注意，什麼該被記住，什麼需要思考。

而在面對選擇時，大腦會自動調用過往的情感經驗作為決策依據。這雖然不夠理性，卻能幫我們在複雜環境中快速快速決斷。

布嘌呤半升

豈能久居人下

須知：情緒不是理性的對立面，而是認知的催化劑。

以及：未來最成功的 AI，一定既能解決問題，又能觸動人心。

人，注意力有限

好友 Owen，也是沉浸式翻譯的作者，提到過一個點：「最寶貴的，是注意力自由」

是啊，人沒有足夠精力，去完成所有的事情：每天做不了多少事，便沒了力氣。

所有的抱怨，都是人和事情的失調，是機遇。

我不擅長寫前端。

之前每有需求，就是讓 ChatGPT 來寫，然後人工貼到 VSCode，報錯了再回去問。

如此反復，很耗心力。

而如果我用 Claude，便可通過 Artifact 直接渲染，節省了許多不必要的精力損耗。

🏀和🐔，是有共同點的

bolt.new 則更進一步，將環境完整搬到瀏覽器，支持更多文件的讀寫，這使得我可以完成更為複雜的。比如，這裏我用純自然語言，讓他幫我做了一個 API 接口測試對比工具。

按正常開發，這個東西我得寫一週

在內容消費方面，如何有效利用注意力的問題同樣重要。同樣的內容，在不同的設備上，都會被以更好的方式渲染：

在手機這樣的小屏上，內容會自動重組，突出核心信息
在電腦等大屏設備上，則能呈現更豐富的細節和交互選項

本篇內容，手機和電腦顯示不同

這種展示方式，被稱之為「響應式設計」，Responsive Design。

隨著 AI 的加入，相信我們還可以擁有「響應式 AI」：根據使用場景和讀者的偏好，動態的調整內容及交互。例如：同樣的內容，AI 可以在嘈雜場景中強調視覺信息，在運動場景中則用聲音提醒。

這是一個轉變：產品從等待用戶分配注意力，到主動優化認知資源。

人類認知協議

我們曾經的內容表達，局限於常規預設：文字、靜態圖表、簡單對話。

但這並無法發揮 AI 的潛力，甚至帶來了 AI 的融入困難。

或許，我們應重新審視：

大腦習慣於信息的分層理解。AI 的輸出應建立於邏輯分層：核心結論直接可見，支持邏輯和背景次之，深度細節作為擴展選項。比如，展示技術方案時，會先看到直接效果，再瞭解到背後的機制，最後決定是否進一步探索細節。

比起靜態文字，我們更喜歡視覺化的動態信息。多模態的表達，可以使信息更生動：視覺化簡化複雜關係，動畫展示變化過程，聲音和觸覺強化關鍵提醒。這些形式並非互相疊加，而應動態結合，形成一種協同的信息傳遞。並且：多使用 Function Calling 吧，方法都在文檔里。

情感體驗至關重要。信息的最佳載體是情感，當內容帶著適當的情緒，大腦會本能地加深理解和記憶。這啟發了 AI 的表達藝術：不僅傳遞答案，更要在恰當的場景中喚起共鳴。

可交互性，是關鍵。傳統的信息展示是單向的獨白，而 AI 讓內容變成了雙向對話。通過實時交互和即時反饋，我們不再是內容的被動接收者，而是共同創作者。

屬於 AI 的響應式。AI 的輸出，不應是千篇一律的答案，而應像變色龍般適應環境。在手機上它是簡潔的決策助手，在電腦前它是全面的分析工具，在嘈雜環境它側重視覺，在運動場景它善用聲音——始終以最適合當下場景的方式傳遞信息。

認知即接口：我們會不斷探索人類的認知模式，然後設計出更自然的人機交互：AI 未來的輸出，或不再是單純的「答案」，而是一種體驗。

你可能喜歡