與Transformer分道揚鑣?Sakana AI提出「連續思維機」架構,有望彌合人工神經網絡和生物神經網絡的鴻溝

當地時間 5 月 12 日,由前Google頂級 AI 科學家、「Transformer 八子」之一的利昂·鍾斯(Llion Jones)聯合創立的日本初創公司 Sakana AI(下稱 Sakana),推出了一種名為連續思維機(CTM,Continuous Thought Machines)的新型 AI 模型架構。連續思維機是一種新型人工神經網絡,它利用神經元動力學之間的同步來解決任務。

下方影片展示了連續思維機解決迷宮問題的可視化過程以及對真實照片的思考。令人驚訝的是,儘管它並非明確設計用於此,但它在迷宮問題上學到的解決方案非常易於理解,且頗具人性化,可以看到它在「思考」解決方案時,會沿著迷宮的路徑進行探索。對於真實圖像,它並沒有明確的動機去環顧四周,但它會以一種直觀的方式這樣做。

(來源:Alon Cassidy)

連續思維機是一種受生物神經網絡啟發的 AI 模型,其核心推理機制獨特地利用了神經元活動的同步性。與傳統的人工神經網絡不同,連續思維機在神經元層面使用時間信息,從而實現了更複雜的神經行為和決策過程。這一創新使模型能夠逐步「思考」問題,使其推理過程可解釋且更接近人類。本次研究表明,該模型在各種任務中的問題解決能力和效率都有所提高。Sakana 團隊認為連續思維機是彌合人工神經網絡和生物神經網絡之間差距的重要一步,有可能為 AI 能力開闢新的領域。

圖 | 在本次研究之中 Sakana 團隊重新思考了認知核心中的一個重要特徵:時間(來源:Sakana AI)圖 | 在本次研究之中 Sakana 團隊重新思考了認知核心中的一個重要特徵:時間(來源:Sakana AI)

在廣為使用的 ImageNet-1K 基準測試中,連續思維機取得了 72.47% 的 top-1 準確率和 89.89% 的 top-5 準確率。雖然這與 ViT 或 ConvNeXt 等最先進的 Transformer 模型相比還有差距,但它仍然具有競爭力,尤其是考慮到連續思維機架構在本質上有所不同,並且其優化並非僅限於性能。

採取多個步驟來「思考」如何完成任務

眾所周知,人類大腦在某些領域表現出色,這些領域即便是最先進的現代 AI 也難以企及,而且人類大腦的效率往往要高得多。一直以來,Sakana 團隊經常從自然界中尋找靈感,例如利用進化來融合模型、為語言模型進化出更高效的記憶以及探索人工生命空間等。儘管近年來人工神經網絡使 AI 取得了顯著成就,但它們仍然只是生物大腦的簡化模擬。那麼,能否通過融入生物大腦中的特徵,來解鎖 AI 在能力和效率上的新層次?

為此,Sakana 團隊決定重新思考認知核心中的一個重要特徵:時間。儘管自從深度學習於 2012 年問世以來,AI 能力取得了顯著飛躍,但是自 20 世紀 80 年代以來 AI 模型中使用的人工神經元基本模型基本保持不變。人們仍然主要使用神經元的單個輸出,該輸出能夠表示神經元的放電情況,但卻忽略了神經元放電與其他神經元之間的精確時間關係。然而,大量有力證據表明這種時序信息在生物大腦中至關重要,例如在脈衝時序依賴可塑性(STDP,spike-timing-dependent plasticity)等機制中,時序信息構成了生物大腦功能的基礎。

在新模型中 Sakana 團隊採用的實現方式是:讓神經元能夠訪問自身的行為歷史記錄,並通過學習利用這些時序信息來計算下一時刻的輸出,而不僅僅是基於當前狀態做出反應。這使得神經元能夠根據過去不同時間的信息來改變其行為。此外,新模型的主要行為基於這些神經元之間的同步,這意味著它們必須學會利用這種時序信息來協同完成任務。Sakana 團隊認為,與現有模型相比,這會產生一個更加豐富的動態空間和不同的任務解決行為。

在添加了時序信息之後,Sakana 團隊在多項任務中觀察到了多種非平凡行為。比如,其觀察到了高度可解釋的行為:在觀察圖像時,連續思維機會仔細地在場景中移動其視線,選擇聚焦於當前最顯著的特徵,並在某些任務上展現出性能提升。尤其令該團隊感到驚訝的是,在神經元活動的動態變化中觀察到了行為的多樣性。

影片 | 展示在連續思維機中觀察到的神經元動態樣本,揭示了它們如何隨不同輸入而變化。很明顯連續思維機學會了表現出多種多樣的神經元行為。對於每個神經元(以隨機顏色顯示)與其他神經元的協同放電現象,Sakana 團隊將其稱之為同步化。該團隊通過量化這種同步模式,將其作為連續思維機的核心表徵機制(來源:Alon Cassidy)

這種新型模型的行為機制建立在一項新型表徵的基礎之上,即基於神經元集群隨時間推移形成的同步化活動。Sakana 團隊認為這種機制更貼近生物大腦的工作原理,儘管這並非嚴格意義上的生物學模擬。連續思維機能夠利用新的時間維度、豐富的神經元動態和同步信息來「思考」任務並在給出答案前進行規劃。之所以在命名中使用「連續」一詞,因為連續思維機在推理時完全在內部「思維維度」中運作。它在處理數據時是異步的:它可以以相同的方式針對圖片這樣的靜態數據或序列數據進行推理。研究中,Sakana 團隊在一系列任務上測試了這一新模型,發現它能夠解決各種問題,並且通常能以非常易於解釋的方式完成。

該團隊所觀察到的神經元動態與真實大腦中測得的動態更為相似,而與傳統的神經網絡相比則顯得大相逕庭,後者表現出的行為多樣性要少得多。連續思維機中的神經元呈現出不同頻率與振幅的振盪特性。有時,單個神經元會表現出不同的頻率,而其他神經元則僅在執行任務時才顯示活動。需要說明的是,所有這些行為都是完全自然湧現的,並非由研究人員設計到模型之中的,而是作為添延長序信息和學習解決不同任務時的副作用而出現的。

圖 | 連續思維機的神經動力學與當前流行的人工神經網絡中的動力學之間的比較(來源:arXiv)圖 | 連續思維機的神經動力學與當前流行的人工神經網絡中的動力學之間的比較(來源:arXiv

測試任務:迷宮求解和圖像事物分類

由於引入了新的時間維度,連續思維機的一個主要優勢在於,該模型隨時間推移解決問題的動態過程可以被實時觀察和可視化。傳統 AI 系統可能僅通過神經網絡的一次遍曆來對圖像進行分類,而連續思維機則可以採取多個步驟來「思考」如何完成任務。為了展示連續思維機的功能和可解釋性,Sakana 團隊展示了兩個任務:迷宮求解和照片中物體的分類。

迷宮求解

在迷宮求解任務中,Sakana 團隊向連續思維機呈現了一個二維的自上而下的迷宮,並要求連續思維機輸出解決迷宮所需的步驟。這種形式的挑戰性之處在於,由於模型必須理解迷宮的結構並規劃解決方案,而不僅僅是輸出路徑的視覺表示。連續思維機的連續「思維步驟」使其能夠製定計劃,並能讓人直觀地看到它在每個思維步驟中關注了迷宮的哪些部分。令人驚訝的是,連續思維機學習了一種非常類似人類的解迷宮方法。Sakana 團隊在相關論文中表示,他們能夠直觀地觀察到,模型通過其注意力模式的動態變化,在迷宮中實時探索路徑的過程。 

影片 | 連續思維機通過觀察(使用注意力)並直接生成步驟(例如左轉和右轉等)來解決迷宮問題。它直接利用神經動力學的同步性(即使用同步性本身的線性探測)來實現這一點(來源:Alon Cassidy)

這一行為尤其令人印象深刻的是,它自然地從模型的架構中產生。在設計連續思維機的時候,Sakana 團隊並沒有為其設計追蹤迷宮中的路徑的方法,而它通過自我學習自行開發了這種方法。此外,當允許更多的思考步驟時,連續思維機會繼續沿著路徑走,甚至超過它被訓練到的點,這表明它確實已經學會瞭解決同一問題的通用方法。

圖像識

ImageNet 是 2012 年引發深度學習革命的經典圖像分類基準測試。傳統圖像識別系統僅通過一步即可做出分類決策,但是連續思維機則能通過多步處理來檢查圖像的不同部分,然後再做出決策。這種逐步處理的方法不僅使 AI 的行為更具可解釋性,還提高了準確性:它「思考」的時間越長,答案就越準確。這使得連續思維機能夠自行決定在更簡單的圖像上花費更少的時間進行思考,從而節省能源。例如,在識別大猩猩時,連續思維機的注意力會從眼睛轉移到鼻子再轉移到嘴巴,這種模式與人類的視覺注意力非常相似。

影片 | 影片展示了連續思維機在圖像分類時的行為示例。熱力圖顯示了連續思維機在處理圖像時關注的區域,箭頭則指向了關注的中心(來源:Alon Cassidy)

這些注意力模式為深入瞭解模型的推理過程打開了一扇窗口,展示了模型認為哪些特徵對於分類最為相關。這種可解釋性不僅對於理解模型的決策很有價值,而且對於識別和處理偏差或失效模式也可能非常有用。 

既是與常規深度學習的分道揚鑣,也體現了哲學上的轉變

儘管現代 AI 是基於被稱為「人工神經網絡」的大腦模型,但即便在今天 AI 研究與神經科學之間的重疊程度卻出人意料地低。一直以來,人們選擇沿用 20 世紀 80 年代開發的模型,這是因為該模型簡單、訓練高效,並且在推動 AI 發展方面不斷取得成功。另一方面,神經科學正在創建更準確的大腦模型,但這主要是為了幫助人們理解大腦,而不是試圖創建更優越的智能模型,當然兩者之間也有可能相互促進。這些神經科學模型儘管增加了複雜性,但通常仍不如目前最先進的 AI 模型表現優異,因此可能並不值得為了發展 AI 而去進一步研究它們。

儘管如此,Sakana 團隊認為如果不去繼續推動現代 AI 在某些方面以更接近大腦的工作方式,那將讓人們錯失找到能力更強、效率更高的模型的機會。2012 年「深度學習革命」之所以能夠實現能力的巨大飛躍,正是因為受到了神經網絡的啟發,而神經網絡是一種受大腦啟發的模型。因此,Sakana 團隊認為應該繼續從大腦中汲取靈感。而連續思維機是 Sakana 團隊首次嘗試彌合這兩個領域之間的鴻溝,在某種程度上它展現出更加接近大腦行為的初步跡象,同時它仍然是一個實用的 AI 模型。

因此,未來 Sakana 團隊將繼續朝著這一受自然啟發的方向推進模型研發,並探索可能湧現出的新能力。最終,他們希望開發出既能更好地捕捉生物智能、又能保持人工神經網絡實用優勢的 AI 系統。

可以說,隨著 OpenAI 和Google等大型老牌企業加大對基礎模型的投資,Sakana 正在開闢一條不同的道路:開發小型、動態、受生物啟發的系統,這些系統能夠及時思考、按設計協作,並通過經驗不斷進化。

這既代表著在技術迭代上與常規深度學習的分道揚鑣,也體現了哲學上的轉變,即向更具生物學基礎的模型邁進。因此,Sakana 團隊將連續思維機定義為向更接近大腦智能系統邁出的一步。

據介紹,Sakana 成立僅一年便成為日本發展最快的獨角獸企業,獲得英偉達及眾多日本企業的支持。

如前所述,利昂·鍾斯(Llion Jones)是前Google軟件工程師,在Google工作了十多年,他是著名論文「Attention Is All You Need」的作者之一,這篇論文介紹了一種用於自然語言處理的深度學習模型——「Transformer」,它也是大多數最新 AI 模型(比如 ChatGPT)的核心。目前,他擔任 Sakana 的首席技術官。

圖 | 利昂·鍾斯(Llion Jones)(來源:https://venturecafeglobal.org/speakers/llion-jones/)

該公司的另一名創始人是 David Ha,此前他曾在 Google Brain 工作,更早之前在日本東京大學獲得神經醫學博士學位。

圖 | David Ha(來源:https://analyticsindiamag.com/people/david-ha/)

該公司還有一位聯合創始人兼首席運營官叫伊藤仁(Ren Ito)。此前,伊藤仁曾擔任日本首家獨角獸企業 Mercari 歐洲區首席執行官。在進入科技領域前,他擁有 15 年日本外交官生涯。

圖 | 伊藤仁(Ren Ito)(來源:https://www.linkedin.com/company/sakana-ai/)

據瞭解,Sakana 在日語中是魚的意思,因此該公司的 logo 也是一條魚。魚在日本文化中具有重要像征意義,如鯉魚(コイ)代表堅韌,金魚(キンギョ)象徵繁榮。Sakana 的 logo 不僅體現本土文化認同,也暗示其專注於日語及日本文化適配的 AI 模型開發。同時,這也象徵著公司的核心技術理念,即模仿自然界的集體智慧與進化機制。

圖 | 公司 logo(來源:https://sakana.ai/careers/)圖 | 公司 logo(來源:https://sakana.ai/careers/)

該公司聯合創始人 David Ha 曾表示,在美國矽谷創業難以實現差異化,而選擇在日本創業、並採用本土文化元素有助於塑造獨特的品牌形象,從而區別於歐美 AI 公司。

參考資料:

交互式報告:https://pub.sakana.ai/ctm/

相關論文:https://arxiv.org/abs/2505.05522

代碼:https://github.com/SakanaAI/continuous-thought-machines/

運營/排版:何晨龍