用信息論的視角,重新認識這個世界

那天中午,我在知乎上看到一個有趣的問題:

把一篇英語文章的所有aeiou替換成t,它還有可能被完全破譯嗎?

我翻閱了許多回答,有的列舉了tt、ttt、tttt…這樣的例子、有的則一本正經地胡說八道、還有人幹脆把問題丟給大模型解決….

我覺得這本質上是一個信息論的問題。當我們把所有元音替換成’t’後,賸餘的信息是否足夠支撐我們還原原文?英語本身就有很高的冗餘性,比如語法結構、詞語搭配等都能提供大量上下文信息。因此,在長文本中,這種還原應該是可行的。關鍵在於,這種替換究竟損失了多少有效信息,剩下的部分是否還足以支撐我們的理解和還原。

說到信息論,我與它的聯繫大概是大學選過的一門課,叫《多媒體技術》。選課之前,我天真地以為這門課會教我如何用PS,如何剪影片,如何做PPT。因為從小就在說的「多媒體教育」,感覺就是通過ppt來上課。還有「多媒體教室」,就是多了個投影,所以我一直以為這就是「多媒體」。我選它的原因也很簡單,我真的不會用PS,我想學學。而且這門課應該比較簡單。

上課之後:奈基斯特定理、信息熵、zigzag、JPEG圖像壓縮原理…

我以為的課設:剪一個影片。

實際上的課設:

就這麼一門和我想像大相逕庭的課,我現在卻覺得是我學過最有用的一門課。因為「信息」無處不在。你看的新聞是信息,你與他人的交流是信息,甚至你設計的產品界面也在給用戶傳遞信息。

尤其是在當下,信息生產的成本急劇降低,各種公眾號…一個事件可能會被上百個號重覆報導。此外,AI領域的進展也是日新月異。相比之下,我們就像大海中的小船,隨時可能被信息淹沒。接受吧,腦子好像又處理不過來;不接受吧,又怕錯過了什麼。而信息論,正是幫助我們找到理解這些信息的角度,以及製定獲取信息策略的工具。

說遠了,我去簡單複習了一下信息論的基礎知識,也分享給大家。

從生活中理解信息

最開始寫這篇文章的時候,我從定義和公式的角度介紹信息、信息熵、自信息這些概念…但發現太專業了,不適合閱讀。所以我打算放棄那些專業的知識,從一個簡單的遊戲理解信息論。這種直觀理解對於非專業人士來說更為重要。

首先,信息是消除不確定性的。

假設我心裡想了一個1到100的數字,請你來猜。在沒有任何提示的情況下,這就是一個完全不確定的系統 —— 每個數字的可能性都是相等的。

如果我告訴你:「今天天氣不錯,我覺得等會我們可以出去玩,順便去吃個火鍋」。

這句話你會發現對你猜測毫無作用。

而如果我告訴你:「這個數字大於50」。你的猜測範圍就減少了一半,然後你猜了個75。

我繼續說:「這個數字的範圍在60-70之間」。你的猜測範圍進一步縮小,你猜了個63。

我說:「猜對了!」

通過這個簡單的遊戲,我們就能理解信息論中的幾個核心概念:

首先,根據信息論中的定義,信息是用來消除不確定性的。你試圖猜我心中想的數字,通過不斷的嘗試,來降低這個不確定性。直到你猜到我所想的。

自信息:單個事件發生時帶來的信息量。這裏的事件指的是我給你的提示。其中「這個數字是73」這個事件的自信息就很大,因為它的發生概率很小(1/100)

信息熵:系統的平均不確定性,當你完全不知道我內心所想的時候,信息熵達到最大。

信息增益:獲得這個信息後,系統不確定性減少的程度。它實際上是信息熵的變化量:原來的信息熵 減去獲得信息後的信息熵。在這個對話中,「60-70之間」能帶來的信息增益一定大於「大於50」,因為它幫你排除了更多的干擾。你只需要在10個數裡面選一個。而不是50個數。如果我直接告訴你這個數字是63,那麼它會將整個遊戲的信息熵降為0。因為你已經不需要猜了。

這就是信息的本質:消除不確定性。當你獲得的有效信息越多,系統的信息熵就越小,你就越接近信源。

再舉個生活中的例子。當你在考慮是否購買一件商品時,每條信息都在幫你消除不確定性:

  • 「這是一件純棉T恤」(確定了品類和材質)

  • 「價格299元」(確定了價格區間)

  • 「隔壁店同款199元」(這個信息增益很大,可能直接影響你的決策)

很明顯,這些概念不僅存在於理論中,更與我們的日常生活密切相關。每當我們需要做決策時,都在不斷地收集信息,評估信息的價值,通過獲取高信息增益的內容來幫助我們作出更好的選擇。希望這兩個例子能夠讓你有一個直觀的印象。

現在我們再來看看開頭的問題,用剛學到的信息論概念來分析一下。當我們把所有元音都替換成’t’時,表面上看是損失了一些信息。但英語文本中其實存在大量的「信息冗餘」。比如語法結構(主謂賓的位置)、單詞搭配(即使「make a decision」中的元音被替換,我們也大概能猜出來),以及整句話的語境,這些都在幫我們消除不確定性。即使失去了元音信息,其他信息的存在依然能幫助我們很大程度推測出原文。當然,這說的是大部分場景,信息越多,能還原成功的概率越高。

信息論給我們的啟示

理解了信息的本質,我們就能以不同視角看待一些問題:

1. 為什麼大模型會「胡說八道」?

我經常強調大模型回覆質量是跟用戶的提問質量密切相關的。

當它在面對高度不確定的問題時,沒有足夠的信息來降低系統的信息熵。就像你在猜數字時,如果得到的提示太少或者有誤導,也可能作出錯誤的判斷。

相比之下,提示詞技術這些都是輔助減少信息噪聲的方法,核心只有一個,就是讓用戶如何清晰準確的表達問題。

2. 「冗餘」的必要性

在信息傳遞過程中,噪聲是不可避免的。就像在電話裡說話,可能會遇到信號不好、背景音嘈雜等情況。這時候,如果信息沒有任何冗餘,一旦受到干擾,就很難還原出原始信息了。

這個問題在內容總結類功能中其實特別明顯。很多人讓大模型總結文章時,會要求「只給我重點」。結果得到的往往是一堆要點的堆砌。一旦大模型的理解有所誤解,就會導致信息失真極為嚴重。

此外,要點的堆砌雖然信息密度很高,但讀起來特別費勁。這就像把文章中的所有廢話都刪掉,只留下核心觀點。表面上看起來很高效,實際上反而增加了讀者的理解成本。人類理解信息時需要上下文。那些看似冗餘的內容,比如例子、類比、過渡語句,它們就像語言中的語法結構和單詞搭配一樣,能夠幫助我們的大腦更好地處理和吸收信息。當這些必要的冗餘被去掉,即使信息都在那裡,我們也需要耗費更多精力去理解和連接它們。

3. 信息獲取策略

說到如何提高信息獲取效率,我的策略很簡單:不主動刷新聞。

因為有價值的信息會自然傳遞。重要的事情總會通過各種渠道傳到你耳朵裡。即使你不主動去蒐集,該知道的總會知道。反而是那些不重要的信息,如果你不去主動獲取,它們就會自然消失。

現在AI領域每天都在爆出新模型、新突破。但仔細觀察就會發現,真正的突破性進展很少,大部分都是正常的科學研究。對於並不需要專注於科研的人來說,沒有必要去刷那麼多新聞。

那些真正重要的突破,必然會在多個渠道反復出現,而且會持續發酵。就像GPT-4的發佈,它帶來的不僅是一個新聞,而是一系列的技術討論和應用探索。這種持續的信息流才是值得關注的。比如說這幾天的Deepseek。

從信息論的角度看,當一個信息通過多個渠道重復出現時,不僅提高了信息的可靠性,更重要的是往往會帶來不同的視角和解讀。這些差異恰恰能幫助我們更全面地理解這個信息的價值。與其追求信息的全面,不如追求信息的深度。當你對某個領域有足夠深的理解時,判斷一個新信息的價值往往只需要幾秒鍾。那些看似錯過的信息,很可能對你並不重要;而那些真正重要的信息,一定會以各種形式重復出現在你面前。

在信息爆炸的時代,保持定力比追求全面更重要。讓信息自然流動,而不是焦慮地追逐每一個新聞,這可能才是最高效的信息獲取策略。

4. 充滿包容的溝通

很多時候並不是對方笨,而是因為你們對信息的理解不對等。這讓我想起一個很有意思的遊戲:Tick Tock。一個雙人互動遊戲,但它不需要通過服務器聯機:兩個玩家各自在自己的手機上玩,一個人解謎的同時,另一個人要配合完成某些操作。但關鍵是兩個人並不能看到對方的視角,只能通過其中一方的描述,來讓雙方理清處境和需求。

這個遊戲完美地詮釋了信息不對等的本質。當我們覺得「其他人怎麼這麼笨」的時候,往往不是對方真的笨,而是我們站在已知信息的角度,忽略了對方的信息盲區。就像在遊戲中,如果沒有跟對方描述清楚你的畫面,他就沒法給予你幫助。遊戲也就永遠無法推進。

我們經常「抽水」用戶使用軟件的時候總是「不按套路出牌」。但換個角度想,這不是用戶的問題,而是我們在設計時,沒有考慮到用戶的信息認知水平。我們覺得理所當然的操作流程,對用戶來說可能充滿了不確定性。

其實大模型的使用就是一個很好的證據。它就像一個沒有說明書的產品,即使開發者也不能完全瞭解它。作為使用者,我們也在不斷摸索,各種提示詞技術都是試出來的。從更高維度看,我們所有人都是愚蠢的用戶。

所以,好的溝通不是簡單地傳遞信息,而是要考慮:對方當前的信息狀態是什麼,如何通過適當的信息冗餘來確保理解,以及如何建立反饋機制,驗證信息是否被正確接收。

有時候,我們需要的可能不是更多的解釋,而是更多的包容。畢竟,在信息不對等的世界里,我們每個人都在靠著自己的認知摸索前行。

本文來自微信公眾號:阿茶的AI之路,作者:起名賊費勁的阿茶