清華大學教授孫茂鬆:理解大模型機理建立AI新理論

·人工智能最前沿之爭就是人才的競爭,頂尖高手決定了人工智能的高度,廣泛的應用決定了人工智能的廣度。

古詩詞中,哪一詩句和唐代杜甫《絕句》中的“一行白鷺上青天”最接近?大模型的回答是宋代《野景》中的“白鷺一行登碧霄”。

清華大學人工智能研究院教授、歐洲人文和自然科學院外籍院士孫茂鬆。

7月25日,清華大學人工智能研究院教授、歐洲人文和自然科學院外籍院士孫茂鬆表示,上述這類根據現有文本分析、不生成新文本的理解類大模型不存在“幻覺”。但像ChatGPT這樣生成類的大模型,對話需要與事實對齊,這還要付出很大的努力,也是目前的研究熱點。

他表示,當前業界對於ChatGPT的舉一反三還處於“知其然,不知其所以然”的階段,只有搞清楚大模型的機理,才有可能克服現有人工智能大模型的局限性,超越現有大模型,建立下一代人工智能理論和模型。而人工智能最前沿之爭就是人才的競爭,頂尖高手決定了人工智能的高度,廣泛的應用決定了人工智能的廣度。

理解大模型機理,才能克服局限建立下一代AI理論

人們常常忽略語言的重要性,因為語言自然得就像空氣一樣。但只有人類才有語言能力,語言的地位極其重要。而ChatGPT的出現讓機器也有了語言對話的能力,孫茂鬆說,這是5000年未有之變局,也會催生一系列新應用。

但對於ChatGPT,“現在是知其然,不知其所以然。OpenAI開發出了這樣的現象,但為何會產生智能湧現這樣的現象還說不清。現在人工智能領域的大公司、大機構都在拚命往前跑,把大模型效果做得更好,還沒有時間停下來深刻地思考大模型的機理。”孫茂鬆表示,這就像蒸汽機帶來了工業革命,但直到大約100年後在熱力學三定律之下才解釋清楚。

大模型里的元素事關數學,當前大模型的參數到了萬億級,應用數學家從來沒有解過如此大的方程組,並且大模型涉及到的數學問題與經典數學完全不同,這為理解大模型機理帶來了挑戰。但孫茂鬆認為,只有搞清楚大模型的機理,才有可能克服現有人工智能大模型的局限性,超越現有大模型,建立下一代人工智能理論和模型。而這不會再像蒸汽機那樣需要100年才能理解機理,他相信三五年時間就能突破大模型的機理研究。

語料利用處於粗放階段,減少大模型幻覺是研究熱點

目前大模型的語料利用還處於粗放階段,僅僅是從互聯網上抓取語料,還沒有涉及網頁中的超鏈接和圖片處理、文本結構的識別與利用等。孫茂鬆表示,“大模型寫短文可以寫得很好,但寫長文、短篇小說不行,它沒有辦法保持大邏輯流暢、人物角色連貫。因為大模型就是對下一個詞的預測,預測得再好,它對語料的利用還是有深刻的不足。”

除此之外,孫茂鬆表示,要對語料質量保持足夠關注,剔除語言不通順的語料、計算機生成的語料,利用質量好的語料。但水至清則無魚,越純的語料可能導致多樣性損失,例如喂給大模型的都是“高大上的語料”,大模型就看不懂帶有表情符號的語料。因此要追求平衡,根據應用判斷什麼是好的語料。

大模型存在“幻覺”,常常一本正經地“胡說八道”。但孫茂鬆表示,“幻覺”是能力強的表現,是創新的源泉。大模型分為生成模型和理解模型,前者如ChatGPT,孫茂鬆說,以前要讓計算機通順地說話是做不到的,因為詞與詞的組合關係複雜。現在做到了通順,但並不意味著所說的話是正確的,語義層、語用層都需要和現實世界對齊。“比如機器回答在上海城隍廟吃了上海小籠包和上海烤鴨,從語言角度來看,這都沒有問題。哪個更符合事實,它就不知道了,這就需要人介入進來。”孫茂鬆表示,大模型的對話需要與事實對齊,這還要付出很大的努力,也是目前的研究熱點。

對於後者,模型根據現有文本進行分析,不生成新的文本,只理解不說話,就不存在“幻覺”。利用這種理解模型,打通語料,讓機器自主學習,就可以依靠模型查詢相似詩句,例如哪一詩句和杜甫《絕句》中的“一行白鷺上青天”最接近?大模型的回答是宋代《野景》中的“白鷺一行登碧霄”,這就是大模型所擅長的。

AI最前沿之爭是人才的競爭,頂尖高手決定高度

這一波人工智能浪潮起於2010年,彼時學術界和工業界都在開足馬力研究,積累了充分的經驗,ChatGPT的出現為人工智能點了一把火。孫茂鬆表示,國內的“百模大戰”並非貶義,而是實力的象徵。未來通用大模型支撐垂直模型的開發,絕大多數從業者將不會把主要精力放在基礎模型上,而是面向行業應用開發垂直模型。

但在通用大模型方面,“我們確實在跟跑,跟領跑者的差距很明顯。這半年我們把差距縮小了,但沒有質的變化。”孫茂鬆表示,在ChatGPT之前,國內的大模型研究和國外相比差半個肩位,ChatGPT出現後甩開100米,這半年追了幾十米,但在關鍵性能上還有差距。如果能夠研究透徹大模型的機理,就可能棋高一著。

無論是模型還是應用,都離不開硬件廠商或雲服務商,算力目前是最稀缺的資源。啟明創投發佈的《生成式AI》報告顯示,GPU的性能實際上決定了這個新興行業的步調,但從長期來看,人才對人工智能未來的影響超過算力。

孫茂鬆同樣認為,人工智能最前沿之爭就是人才的競爭,頂尖高手決定了人工智能的高度,廣泛的應用決定了人工智能的廣度。人工智能的發展需要一流的人才,這些人才除了具備頂尖的能力,還要有遠大的科學理想、敏銳的洞察力和對技術的激情。