21對話丨全國政協委員、中國工程院院士王堅:發展AI,最重要的是找到真問題

21世紀經濟報導記者 馮戀閣 李玉敏 王俊 北京報導

AI,是今年全國兩會的熱詞之一。除了頻頻在代表委員的提案中被提及,“人工智能+”還首次被寫入政府工作報告。

賽迪研究院數據顯示,2023年中國AIGC的企業採用率已達15%,市場規模約為14.4萬億元。專家預測,2035年生成式人工智能有望為全球貢獻近90萬億元的經濟價值,其中我國將突破30萬億元。

百模大戰升級,跟不跟?OpenAI發佈Sora,意味著什麼?AI帶來的顛覆性變革下,還有許多追問。

什麼是人工智能產業發展的真問題?全國兩會期間,南方財經全媒體-21世紀經濟報導記者就此對全國政協委員、中國工程院院士王堅進行了專訪。

(全國政協委員、中國工程院院士、之江實驗室主任、阿里雲創始人王堅)(全國政協委員、中國工程院院士、之江實驗室主任、阿里雲創始人王堅)

切忌人工智能庸俗化

《21財經》:從22年年底ChatGPT登場至今,產業界已經曆經多輪搏殺。您認為,國內的“百模大戰”跑出了哪些您認為比較成功的場景、產品或者技術?

王堅:要談優劣,首先需要明確討論的對象。我認為當前所謂的百模大戰優劣討論中,包含了幾個不同層面的概念。

首先,真正意義上的大模型包括兩種類型:第一種是基礎模型(foundation model);第二種是基於基礎模型做了一些針對性調試(fine-tuning)的模型,這種大模型在某一個領域、場景表現得更好。前者可以叫通用模型,後者可以稱作是應用模型(專用模型)。

在這兩類模型之外,還有模型應用。所謂模型應用,是指根據現有的模型開發一個應用來提供服務。在模型應用背後提供支援的,可以是通用模型,也可以是垂直模型。

以OpenAI為例,該公司的GPT是早在2017年就已經存在的技術概念,GPT-3、GPT-4等,是公司開發的基礎模型,而ChatGPT、Sora則是基於基礎模型的應用產品。

不同層級的概念,比較的標準也不同。因此,比較應該在同類型的技術或產品間展開。

如果是在基礎模型的領域作比較,Hugging Face社區上的模型榜單是相對更有參考性的。這個社區彙集了世界各國、各種版本的大語言模型,樣本量較大,所以如果模型能上榜,其質量相對來說會有一定保障。

不過,雖然目前行業內有一些共識,但是要給出確切的指標和“誰比誰好”的定論,並不容易。

處在大模型創業初期的公司為了展現其潛力,可能會傾向於強調他們的應用擁有大量的用戶;一些更關注底層技術的公司會更注重其基礎模型是否優越。我個人觀點還是支援基礎模型的能力更重要。畢竟,如果能力一成不變,用戶的數量增長和留存率都很難維持。

總而言之,我認為談比較還太早。對於這種還處於發展早期的技術,討論出一個確切的答案要考慮太多複雜的因素,還需要投入更多的精力和資源研究討論。

《21財經》:兩會期間發佈的政府工作報告首次提出了“人工智能+”的概念,您怎麼理解這個詞?您認為它會對AI以及其他行業產生怎樣的影響?

王堅:“人工智能+”是對未來人工智能產業非常好的總結,對推動人工智能技術在我國快速發展有著極其關鍵的引導作用。但需要我們認真理解“人工智能+”的機理以及它對產業變革影響的內在規律。我們一定要防止出現“AI”的深刻、長遠影響走向庸俗化,產業發展上只是“新瓶裝舊酒” 的情況,讓我們失去一次歷史性機會。

除了要警惕AI庸俗化,我認為還應該思考“人工智能+”的真正含義,明確人工智能的概念和對千行百業的真正意義。需不需要用?具體用在哪個方面?該怎麼用?不同行業面對這些問題的答案不盡相同。  

同時,只想到AI的加和效應,可能太過簡單。人工智能未來不會只是一個疊加在現存的應用上的工具,它可能會改變一個行業的生產方式。以Sora為例,它的出現可以簡單看作是“AI+短視頻”的成果,但本質是智能技術除了理解語言之外,開始理解和生成物理世界,儘管它的表達是用視覺的。

發展新技術需要審慎考量。從業者要思考究竟如何與AI結合能夠實現質的突破,而不是把“人工智能+”當成一個框,把所有已有的東西都套進來。

人類暫時無法預測AI的最佳實踐 

《21財經》:今年年初,OpenAI發佈了新產品Sora。Sora的出現對國內AI產業衝擊大嗎?

王堅:很多人看到Sora後只覺得它可以用來做短視頻,其實是對這個技術的低估。

過去討論大模型,很多時候主要說的是大語言模型。語言模型輸出局限於文字的表達;Sora這類產品和技術不同,它們輸出的是視覺性的結果。儘管仍有許多無法通過視覺呈現的東西,但相對文字,視覺描述的真實世界能提供更多細節。

Sora給人類社會帶來的驚喜在於其通過精準的視頻生成,展現出了對物理世界優秀的理解能力。Sora和ChatGPT背後的基礎模型其實都基於GPT-4,但輸出上已經從文字邁向視覺,這種優異表現,讓我們意識到其背後的基礎模型在理解能力上又有了極大進步。

它的出現也會讓人開始思考:人工智能模型是否真正能夠理解我們的世界,甚至能夠在理解和生成方面超越我們?Sora展現出的潛力讓我意識到,這個問題的答案很有可能是肯定的。

回到國內產業影響這個問題。我認為,需要坦率地承認,在這個賽道上國內外確實是有一定差距。 以前國內也出現過類似的產品,但是生成的視頻不超過10秒,技術效果和市場表現都比較一般,企業最終也沒能長久存活。

根源問題無非就是在類似GPT4的基礎模型技術上還有差異和壁壘。我認為,不需要心急,也沒必要盲目地追逐熱點,紮紮實實地在基礎模型研究的過程中,不斷髮現和解決問題,最終會開發出屬於中國的基礎模型和商業模式。

《21財經》:今年可以稱得上人工智能的應用元年,阿里雲也在不久前發佈能讓圖片“開口唱歌”的技術EMO。您觀察比較現實的落地應用場景有哪些?

王堅:現實的應用場景是什麼,這個問題很難說清楚。我認為,至少會比大家目前著眼較多文字、圖片、視頻等生成領域要廣泛得多。

Sora的出現使我們意識到人工智能在世界理解問題上的進步,這是AI智能程的革命性突破,使其超越了其傳統意義上只會模仿人的程式,進一步邁向數字智能。AI未來的可能性是無限的。

在我看來,最重要的還是堅持基礎上的研究突破,把基礎打牢、築高,應用才能充分探索。

簡單來說,我認為雲計算-人工智能-AI應用的關係,和電-電動機-電動汽車的關係非常相似。

電能被發現之後,電動機也被發明和廣泛使用。但從電動機出現到人們開上電動車,中間走過了百年時光。我們花費這麼多年才發現電動車這一最佳應用,要花多長時間才能發現AI的最佳應用呢?坦白講,AI技術還處在相當早期的階段,可能誰都給不出答案。

AI之於當前的人類社會,就如同電燈之於百年前的人。現在的文生圖、文生視頻的模式,就類似電氣時代早期電燈這類很初級的電能使用。

人類會從電燈一步步走向電動汽車,不能說還沒把燈點亮就想到更遠的事,同時也不能覺得電燈就是電力使用的全部。AI發展也是同理,其應用突破會隨著技術不斷升級一一出現,不是一蹴而就的。

在電動車成為現實的時候,電燈依舊是我們生活的基本單元,而電氣化幾乎涵蓋了我們生產生活的近乎全部。我對人工智能引領的“第四次工業革命”也有這樣的期待。

《21財經》:近期阿里、京東雲降價相繼降價,背後有何戰略思考?人工智能應用浪潮下雲計算有何新的增長點?

王堅:當下,人工智能的帶來的工業革命浪潮正在全方位影響人類社會。作為一名雲計算領域的從業者,我認為,AI同時也給雲計算的帶來了第三次革命浪潮。 

算力是人工智能發展的三要素之一,而云計算是最好的提供算力的技術手段,英偉達的黃仁勳也表達過類似的觀點。

雲計算的算力,無疑會給大模型進步提供很大支援。這一輪的降價,最直觀的效果是對AI發展有積極作用。之前從業者都擔心算力貴導致無法支援AI訓練,現在算力成本降低了,研發者在這方面的受到的掣肘會小一些。

我還是希望算力供給方和大模型開發方的關係能夠越來越良性,大家共同成長。

開發基礎模型是發展核心

《21財經》:您之前在受訪時談到,對人工智能技術來說,最重要的是找到每一輪發展的真問題。您認為當前AI產業的真問題是什麼?

王堅:在我看來,當下的真問題就是如何打造一個屬於中國的、足夠強大的基礎模型

人工智能在很長時間裡面找的都是玩具性問題(toy problem),比如,最早的時候,科學家嚐試教人工智能下象棋。從深藍的對弈到AlphaGo打敗了李世石,AI在象棋界的成就次次都能引起很大轟動,但是後續對其他產業產生的影響可能不多。

ChatGPT和後續Sora的出現改變了這一點,它讓我們意識到,AI的理解力已經能夠涉足其他領域解決事實性的問題,我認為未來這樣的情況會越來越多。我想我們可以設想一個這樣的終極場景——讓AI解決一個城市的運行和發展問題,城市GDP是多少、日常如何運轉,都可以通過強大的基礎模型來協調解決。

不過,從ChatGPT開始,到人工智能能夠理解世界,還有很多工作要做。所以,專注打造基礎模型,從根源上提升技術能力,是產業發展的核心。

《21財經》:數據也是產業發展不可缺少的動力,您認為當前高質量數據荒的問題應該如何解決?

王堅:數據問題的解決與建立一個真正的大模型息息相關。

以OpenAI為例,大部分ChatGPT的訓練數據是互聯網公開數據。技術人員開發了大模型,在使用數據訓練迭代的過程中判斷數據的優劣。換言之,如果不開始做模型,從業者就無法知道哪些數據真正有用。

把好的模型建起來,在運行的過程中,自然會找到合適的數據。基礎模型的構建能夠幫助人類完成AI“三駕馬車”的考驗:數據的數量和質量如何,算力的供給夠不夠,算法是否足夠優秀……只有在一個真實的模型中,才可以完成對這些問題的檢證。

治理是法律和技術配合

《21財經》:AI發展以來,這個行業在不同層面的“路線之爭”常常被人們關注和討論。隨著應用變多,有人覺得AI變得“頭腦發達,四肢簡單”,沒有解決人類發展的真問題。您覺得人工智能走偏了嗎?

王堅:我也聽過類似的觀點——“人工智能應該先做到替人類下礦井、檢修高壓線、在空中擦玻璃;而不是先能夠做視頻、寫文章、畫畫。”我對此非常讚成。

但是這其實並不是走偏,是技術發展還沒到達讓人工智能“四肢發達”的階段。對AI目前的水平來說,讓頭腦發達(以GPT為代表),比讓四肢靈巧容易。人類的靈巧的四肢是不斷進化的結果,機器人短時間內可能很難實現。

至於為什麼AI已經足夠聰明,卻還是出現“一本正經說瞎話”的情況。我認為還是基礎模型能力不足,導致它沒有辦法真正理解世界。

《21財經》:人工智能,雖然可能在您看來我們才剛剛起步。但目前在應用中已經出現了AI換臉詐騙這類問題。您在AI治理方面有何建議?

王堅:我個人認為,技術投入使用後發現問題是非常正常的,問題的出現和解決會推動產業的發展。

我傾向於相信,技術發展會帶來的問題一定會被人類自己解決。不過,這並不意味著問題會被自動解決,需要訂立規則。解決AI應用導致的法律和倫理問題,需要法律和技術的協作配合。

以AI換臉詐騙為例,詐騙的成因之一,是日常生活中對人臉數據識別的大量使用。通過技術手段加強保護,或者製定規則減少使用、加大對濫用行為的懲罰,可能可以有效地阻止此類情況發生。

不管怎麼樣,我們對此要有信心。技術產生的問題,人類定會解決,歷史證明了這一點。

(作者:馮戀閣,李玉敏,王俊 編輯:王俊)