穿越奇點 | 實現通用智能，人類欠缺什麼？業內人士：路徑已存在，但還缺三種“資源”

封面新聞記者歐陽宏宇

ChatGPT的熱潮還未退去，Sora又驚豔登場。從大語言模型到文生視頻大模型，這一輪技術躍遷對AI行業的意義是什麼？距離實現AGI奇點，又還存在哪些資源瓶頸？

近日，多位通用人工智能領域的從業者在接受記者採訪時表示，聚焦於在AIGC領域，Sora最關鍵的突破是在較長時間窗口中，保持了生成內容的一致性；這也意味著，接下來這幾年就會有某種程度的通用人工智能出現。不過，產業還需要克服來自通用模型架構、高質量數據以及能源三方面資源匱乏的挑戰。

Sora帶來階躍式技術提升

是實現通用智能必要過程

將簡短的文本描述輸入模型，Sora很快就能轉化成長達1分鐘的高清視頻，且視頻質量更加真實立體，場景複雜、角色多元，畫質卓越、連續穩定。不過，這還遠不是人工智能的終點。

在月之暗面（Moonshot AI)聯合創始人周昕宇看來，Sora在視頻生成領域實現了階躍式的提升，但這一產品所運用的擴散模型，還不能泛化到AGI全場景的通用的模型架構。

月之暗面（Moonshot AI）創始人楊植麟

據OpenAI透露，Sora是通過學習海量視頻，變成了能實現視頻生成、擴展的“物理世界模擬器”。而這種“大力出奇蹟”的規模法則，對於通用人工智能也存在極大意義。

“Sora讓大家看到了，規模效應不只在文字模態上成立，在視頻模態上也成立。”周昕宇認為，Sora在較長的時間窗口內保持生成內容的一致性的能力，對於理解和模擬複雜動態場景至關重要，因為它不僅涉及到圖像的逼真度，還涉及到動作和場景的連貫性。“通過擴展視頻生成模型可以建立通用物理世界模擬器，這是實現通用人工智能的必要過程。”

但也有不少專家認為，在AI大模型發展的路徑中，從文本到音視頻等多模態是必然的趨勢。這意味著在AIGC賽道上，多模態大模型的訓練規律並不一定適用於大語言模型。對此，周昕宇談到，由於建模文字效率低，Sora的擴散模型可能不是一個通用的模型架構。“也就是說，行業可能無法用 Sora 的技術來訓練一個GPT-4水準的文字模型。”

不過，“可以確定的是，AI能帶來實打實的生產力提升”。月之暗面（Moonshot AI）創始人楊植麟認為，現在用一個軟件，其實對應1000個程式員的智能；以後用的應用背後可能對應100萬個人的智能，而且每天都在迭代。

通用智能將迎來大發展

在某些領域超過人類

無論何種技術，貼近產業才有未來。不過，通用人工智能要真正在全行業實現產業化，仍然需要關鍵“原料”的支撐。

周昕宇分析稱，實現通用人工智能目前還存在三個主要瓶頸。一是缺少能將文本、圖像、視頻等不同模態數據，轉化為統一形式的通用模型架構。“以視頻為例，熵過高的數據雖然可以分別做生成和理解，但通用性和泛化性會受到影響。”

二是高質量的文本數據有限，很快會不滿足於訓練需求。“音視頻數據雖然儲量巨大，但整體數據質量不高，同時受模型架構、大小等製約，無法完全有效利用。”周昕宇預測，下一步，AI需要用巨大的算力生成“合成數據”。

三是人類還面臨“能源挑戰”。周昕宇這樣算了一筆賬，實現通用人工智能需要大量的算力，僅10萬張GPU集群就需要一個大亞灣核電站的發電供應，大約相當於全中國耗電量的千分之二；而且傳統機房的設計容量還不到1萬張GPU，短期彌補這個差距面臨很大困難。

幸運的是， ChatGPT、Sora等產品帶給行業的思維衝擊，已經證實了一條通往AGI奇點，得到通用智能的可行路徑。“人工智能中的‘智能’，本質是通過‘無損壓縮’使得數據的信息熵減少，減少信息熵需要能源，通過更大的模型、更多的數據將能源以最高的效率轉化為智能；而‘通用性’來源於大量豐富的含有大量規律數據，經過‘無損壓縮’得到通用智能，也是目前最可行的技術路線。 ”周昕宇預測，接下來幾年就會有某種程度的通用人工智能出現，在一些任務上智能水平超過人類。

更關鍵的是，AI是實現很多人類暢想的未來技術的基礎。“要實現元宇宙，實現AI是先決條件之一。”楊植麟表示，隨著AI技術成熟，人的時間分配可能也會產生很多變化。“比如，可能把大量時間花在精神世界裡面，進而會演化出一個巨大的虛擬精神空間。”