LeCun最新訪談:距離AGI可能不到10年,下一代AI需要情感和視覺訓練
奇月 發自 凹非寺
量子位 | 公眾號 QbitAI
語言模型的發展已很難有大的突破了。
這是LeCun最新訪談中給出的斷言。
頭戴Meta爆火智能眼鏡,LeCun再次表示人類距離AGI的時間沒有那麼近,「大約在5-10年」,對語言模型發展的判斷更是不樂觀。
未來在哪?還是得看世界模型。
未來AI需要情感、視覺訓練,能夠理解物理環境的世界模型。
而AI發展的關鍵是什麼?開源,Llama之於AI就像是Linux之於互聯網。
如果Llama未來可以發展成一個全球的、分佈式的AI計算平台,可以大大促進AI的發展。
此次訪談在約翰霍普金斯大學布隆伯格中心進行,主持人是Vox Media的卡拿·斯威舍(Kara Swisher)。
在不改變原意的前提下,量子位對訪談的重點內容進行了梳理。
更智能的AI需要情感和視覺能力
Q:你獲得了2024年Vin未來獎,在獲獎感言中你提到,AI的學習方式不像人類或動物,它們沒有從物理世界中獲取大量的視覺觀察,但你一直在努力實現這一點。
LeCun:我們將會有一些系統,它們會像人類和動物一樣高效地學習新技能和新任務,目前我們還無法用機器複製這一點。
我們無法製造出足夠聰明的家用機器人,原因很簡單,因為我們訓練的LLM和機器人都是基於所有公開可用的文本,大約有20萬億個單詞,每個單詞大約由三個字節表示,所以大約是6乘以10的14次方個單詞。
心理學家會告訴你,一個四歲的孩子總共醒著的時間是16000小時,視覺信息以每秒大約2兆字節的速度進入孩子的大腦。我們來算一下,我們有100萬到200萬根視神經纖維,每根每秒大約攜帶一個字節,我們有兩隻眼睛,所以大約是每秒2兆字節。
這樣計算,16000小時就是10的14次方字節,這與最大的LLM通過文本看到的數據量相同。我們要花上幾萬年才能讀完這些文本。這告訴我們,我們永遠不會僅僅通過訓練文本達到人類水平的AI,我們必須訓練感官輸入。
基本上,視覺輸入是無限的,16000小時的影片大約是YouTube上30分鐘上傳的影片總時長。我們擁有的影片數據比我們能處理的要多得多。因此,未來幾年AI要取得下一個級別的進步,最大的挑戰就是讓系統通過觀看影片並互動來理解世界是如何運作的。
這個問題還沒有解決,但我認為在接下來的五年里,很有可能取得重大進展,這就是為什麼你會看到所有這些公司開始製造人類機器人。他們還造不出足夠聰明的機器人,但他們相信在未來五年內AI會取得足夠的進步,到時候這些機器人就可以賣給公眾了。
我們設想在未來幾年的構建藍圖中,AI系統將具有情感,這是這些系統設計的基本組成部分。為什麼它們會有情感呢?因為它們將由目標驅動,你給它們一個必須完成的任務,它們的目的是在硬編碼到它們設計中的約束條件下完成這個任務。
為了做到這一點,它們需要幾個組件。首先,它們需要一種方法來確定我們給它們的目標是否已經完成。此外,它們還需要一個我們稱之為世界模型的東西,這是我們所有人在前額葉皮層中都有的東西,它允許我們想像我們行為的後果是什麼,它讓我們能夠規劃一系列行動來完成一個特定的目標。
如果你有能力提前預測一系列行動將產生什麼,那麼你就可以預測一個目標是否會得到滿足,以及預測結果會是好是壞。如果你預測結果會很糟糕,你會感到恐懼;如果你預測結果會很好,你會感到興奮。所以,預測然後行動以完成這些預測的能力,產生了相當於情感的東西。
因此,足夠聰明的AI系統,能夠推理和規劃並擁有世界模型的AI系統,將具有情感。
Q:這將產生廣泛的影響,可能會改變學習方式,改變一切,讓每個人都相處得更好。但是,仇恨、功能障礙、孤獨等問題仍然存在,你怎麼看待這些事情?
LeCun:我不是億萬富翁,我首先是一名科學家,如果沒有某種程度的科學誠信,我無法面對鏡子中的自己。科學的全過程就是你必須接受你可能會錯的事實,正確的想法來自於多種觀點的碰撞和不同意的人。
我們看看現實,人們說AI會摧毀社會,因為我們會充斥著虛假信息和生成的仇恨言論等等,但我們根本沒有看到這種情況。事實上,人們製造仇恨言論,製造虛假信息,他們試圖以各種方式傳播,但我們最好的防禦措施就是AI系統。
我們需要的是更多的AI技術掌握在好人手中,而不是壞人手中。
語言模型很難再提升,未來每個人都會有AI助手
Q:你剛才說自回歸LLM正在達到性能上限,下一代人工智能系統和大語言模型有什麼不同?
LeCun:過去有些人認為,像GPT這樣的LLM,只要擴大規模,在更多的數據上進行訓練,用更多的計算能力,人類水平的智能就會從中產生。我從來不相信這個概念。llya曾經是這個概念的著名信徒,不過他也放棄了。
這些系統的性能已經達到了上限,因為我們基本上已經用盡了所有公開可用的文本數據來訓練這些LLM,不可能再得到比這更多的數據了。所以人們開始生成合成數據之類的東西,但這樣不可能將性能提高10倍或100倍。
LLM被稱為大型語言模型,因為它基本上是被訓練來預測文本中的下一個單詞,這些系統實際上是在預測單詞的概率分佈,你可以用它來生成文本。這就是自回歸部分。
但無法保證所產生的單詞序列會有意義,有可能會產生胡言亂語或編造東西。所以很多行業都在努力尋找一種方法,基本上是通過人類參與來訓練系統,讓它們執行特定任務而不產生無意義的內容。
我們正在研究的是下一代人工智能系統,它不僅僅基於預測下一個單詞。
當它們不知道答案時,它們可以查詢數據庫或搜索引擎。你需要有能夠檢測系統是否知道答案的系統,然後可能生成多個答案,然後你知道挑選哪些答案是好的。
Q:上週Meta發佈了Meta Motivo,它可以製造看起來更像活人的數字人。這好像是在嘗試讓元宇宙再次成為現實,你能告訴我它到底是什麼嗎?因為你們在這些事情上投入了大量資金。
LeCun:我現在正戴著智能眼鏡,我們最終將圍繞智能眼鏡或其他智能設備展開工作,它們將配備人工智能助手,我可以通過它跟AI交流。這些設備將在我們的日常生活中協助我們,我們希望這些系統具有人類水平的智能水平,甚至在許多方面具有超人的智能水平。
但我們離那個目標還很遠。不是幾個世紀,也可能不是幾十年,但可能是幾年。LLM可以通過律師考試,或者通過一些大學考試。但家用機器人還不能完全打掃房子,清理餐桌,洗碗。我們不是不能製造機器人,而是無法讓它們足夠聰明、讓它們理解物理世界。事實證明,物理世界對AI系統來說要複雜得多。
這些系統最終將能夠規劃一系列行動以實現特定目標,這就是我們所說的Agent。一個Agent系統是一個可以規劃一系列行動以達到特定結果的系統。現在大家談論的代理系統實際上並沒有這樣做。
Q:Meta還在開發AI搜索引擎,我猜你們是想超越Google搜索?
LeCun:一個智能助手的重要組成部分當然是搜索。你搜索事實,並鏈接到這些事實的來源。這樣,與你交談的人就會信任這個結果。所以搜索引擎是完整AI系統的一個組成部分。
但歸根結底,目標不是直接與Google競爭,而是服務於那些想要AI助手的人。
未來每個人都會隨時有一個AI助手,這將成為一個新的計算平台。以前我們稱之為元宇宙,但這些眼鏡最終會有顯示器,增強現實顯示器。已經有了這方面的演示,比如獵戶座項目。我們現在可以把它做得足夠便宜,可以出售了。
Q:現在人力助手的成本要低得多。目前,Meta預計將花費380億至400億美元,Google表示將超過510億美元,分析師預測,微軟的支出將接近900億美元。你會擔心被超越嗎?你認為這是一項值得的投資嗎?
LeCun:我不這麼認為。我沒有在Facebook成立之初就接受這份工作,所以不要問我這個問題。但這是一個長期的投資,你需要基礎設施才能以合理的速度為越來越多的人運行這些AI助手。
目前有6億人使用Meta AI,開源引擎Llama已經被下載了6.5億次,這是一個驚人的數字。在世界各地有85000個項目衍生自Llama,都是公開可用的,大部分都是開源的。很多這些項目基本上都是在訓練Llama說一種特定的語言,比如來自印度的語言。
我不認為這筆投入是冤枉的,因為將來會有很多人每天使用這些AI系統,在一兩年內會有很大增長。而這些系統如果更強大,就會更有用,同時計算成本就越高。所以這項投資是基礎設施的投資。
Llama就像AI界的Linux
Q:Meta最近發佈了Llama3.3,你覺得它的主要作用是什麼?和其他公司的封閉模型對比起來有什麼特點?
LeCun:Llama和大多數其他模型的主要區別在於它是免費的和開源的。從技術上來說,開源軟件就是帶有源代碼的軟件,你可以修改它、自己編譯,你可以免費使用。而且,在大多數許可證下,如果你對它做了一些改進,並且你想在一個產品中使用它,你必須以源代碼的形式發佈你的改進,這樣就使得開源項目能夠非常快速地發展,多年來這一直是一種成功的軟件分發方式。
整個互聯網都運行在開源軟件上,世界上大多數計算機都運行在Linux上,除了少數桌面電腦和一些iPhone之外,其他所有的計算機都是這樣。Linux非常成功,原因是它是一個平台,人們可以修改它,讓它更安全、更可靠等等,讓它能夠在各種硬件上運行。這並不是設計出來的,而是市場力量自然推動的。
在AI領域,判斷某物是否為開源變得複雜,因為構建AI系統首先要收集訓練數據,其次要在這些訓練數據上訓練所謂的基礎模型。那個訓練代碼和數據通常是不公開的。例如,Meta不公開Llama模型的訓練數據或大部分訓練代碼。
然後你可以分發訓練好的基礎模型,比如Llama。它開源了代碼,你可以在任何地方運行該系統,並且還可以進行微調。你不需要支付費用給Meta,也不需要向他們詢問,你可以自己做這些事情。但這有一些限制,主要是由於法律環境的原因。
大型模型很多都是封閉的,比如OpenAI、Anthropic和Google,這可能是因為他們想獲得商業優勢,比如你想直接從這種類型的產品中獲得收入,並且你認為自己或者可以領先於技術,那麼可能就有理由保持封閉。
但對於Meta來說,Meta的AI工具是一整套體驗的一部分,這些體驗都是靠廣告收入來資助的,所以AI不是主要的收入來源。另一方面,我們認為平台會發展得更快,事實上我們已經看到了Llama平台促進了更多的創新。有很多創新是我們沒有想過、或者我們沒有辦法做到,但人們有了Llama模型之後,他們能夠進行實驗,然後提出新的想法。
Q:有很多人批評說Meta之前在AI競爭裡面落後,開源模型是你們用來追趕的工具,你怎麼看?
LeCun:首先,你必須意識到,除了Google之外,這個行業里的每個人在構建人工智能系統時都在使用一個名為PyTorch的開源軟件平台。這個平台主要由Meta開發,後來Meta把擁有權轉讓給了Linux基金會,所以現在它不再屬於Meta了。OpenAI的所有人都使用它,所以沒有Meta,GPT和Claude等模型或許發展不到今天的程度。
像GPT這樣的工具,其中使用的底層技術是在不同地方發明的。OpenAI在它們不那麼保密的時候做出了一些貢獻,它們在過去三年左右的時間里逐漸變得保守。Google當然也做了一些貢獻,但從未真正開放過。他們試圖秘密地推動這項技術。
我認為Meta是一個相當大的研究機構,我們的研究組織叫做FAIR,過去叫Facebook Research,現在主要做基礎研究。我們有大約500人在那裡工作。我們正在研究的實際上是下一代人工智能系統,超越了LLMs,超越了大語言模型,超越了聊天機器人。這就是所謂的大概念模型,這是一個特定的部分。
更安全的AI系統可以提前設計
Q:你說過專有AI模型集中在少數幾家公司手中是一個巨大的危險。開源模型的批評者也擔心,不良行為者可能會利用它們來傳播錯誤信息、網絡戰、生物恐怖主義等。談談這兩者之間的區別。Meta在防止這些情況發生的方面有什麼作為?
LeCun:這是一個巨大的爭論。我們第一次發佈Llama是相當近期的事情,第一個Llama不是開源的。你必須請求許可,你必須證明你是一名研究人員。這是因為法律環境不確定,我們不知道人們會用它做什麼。
所以我們進行了幾個月的內部討論,每週兩個小時,有40個人參與。關於安全性、法律環境等各種問題進行了非常嚴肅的討論。然後在某個時候,馬克決定開放Llama 2的源代碼。這是在2023年夏天完成的。從那時起,它基本上完全推動了整個行業。
為什麼它比這些公司控制的專有模型更安全?因為有更多的人在關注它,所以有更多的人在為各種事情微調它。
有一個問題是,可能有很多人懷著惡意使用它。所以在Llama團隊中,曾經對所有我們發佈的系統進行Red Team測試,確保它們至少在發佈時基本上是安全的。
我們甚至最初將Llama 2給了一群黑客,在Defcon上讓他們嘗試做壞事,比如嘗試入侵系統之類的,這被稱為白帽。結果是,在過去的將近兩年里,我們還沒有意識到任何真正糟糕的事情發生在我們分發的任何模型上。
Q:如果你的願景是AI成為所有人類知識的寶庫,那麼所有的人類知識都必須可用於訓練這些模型。而其中大部分要麼沒有數字化,要麼數字化了但沒有公開。
LeCun:比如法國國家圖書館的全部內容都數字化了,但不可用於訓練。我並不是在談論版權作品。我的家族來自布列塔尼,法國西岸。那裡的傳統語言已經瀕臨消失,現在只有大約3萬人每天說這種語言。
如果你想讓未來的LLM說布列塔尼語,就需要有足夠的訓練數據。你將從哪裡得到這些數據?你會得到文化非營利組織的幫助,他們收集他們擁有的所有東西。也許政府會幫助他們。但他們可能會說,我想讓你們的系統說布列塔尼語,但我不想就這麼把我的數據給你。
我認為最好的方法是訓練一個AI系統,一個分佈式的全球AI系統倉庫,使用各地的數據為全球系統做出貢獻。你不需要複製數據。
對於Linux來說,實際上它主要是由那些公司員工支持的,這些公司告訴他們實際上要分發他們的貢獻。你可以有一個類似的系統,每個人都可以為這個全球模型做出貢獻,這是每個人的AI。
Linux你是不用付費的,但如果你買了一個運行Linux的小部件,比如安卓手機或者車里的觸摸屏,你為購買的小部件付費。AI也是如此,基礎模型將會是開源且免費的。
現在,它確實感覺像是少量的力量在操控著一切。這個願景很美好,但目前並沒有很好地實現。不過,在我看來,這是不可避免的。
Q:談到辯論,你喜歡與其他AI教父進行公開辯論,比如你的獲獎同行Jeffrey Hinton和Yoshua Bengio。他們都對AI的潛在危險發出了警告。
LeCun:我不認為需要對研發進行監管。我在加州法案SB 1047上與他們產生了分歧。Hinton和Bengio都支持這個法案,而我則反對。我認為監管研發會給AI系統帶來災難性的後果。我說,存在風險是一種幻覺,是一小撮偏執的智庫所推動的。
但Hinton和Bengio並不偏執。Hinton剛剛因為他的工作獲得了盧保獎。另外,加州州長否決了這個法案,但他正在與史丹福大學的教授合作對其進行修訂。
我之所以稱其為胡說八道,是因為我認為這些危險已經被誇大了,以至於變得扭曲。一些人說AI會在五個月內殺死我們所有人,這顯然是錯誤的。
Q:讓我們來談談AGI(通用人工智能),以及我們距離它還有多遠。當人們聽到這個時,他們會想到《終結者》或《我,機器人》之類的情節。
LeCun:Hinton和Bengio認為AGI的時間表可能是五年,而我認為可能需要十年甚至更長。
我不知道會是什麼時候,但我個人認為最早可能在五到六年後,但可能更接近十年。因為這比我們想像的要難得多,歷史上人們總是低估AI的發展難度。
我們現在還沒有達到人類水平的智能,甚至不知道如何用AI系統做很多事情,比如製造家用機器人或五級自動駕駛汽車。在我們找到新的方法之前,我們甚至還沒有走上實現人類水平智能的道路。
一旦我們有了一個藍圖和一些可信的演示,證明我們可能有一條通往人類水平智能的道路,我們就會知道如何使其安全。這就像在20世紀20年代,有人告訴你幾十年後我們將能夠以接近音速的速度飛行數百萬英里橫跨大西洋,你會說:「天哪,你怎麼知道這安全?」但渦輪噴氣機最終被證明是非常可靠的。
所以,讓AI安全意味著以安全的方式設計AI系統。但在我們設計出來之前,我們無法使其安全。
Q:你似乎不擔心AI會想要統治人類。你說當前的AI比家貓還笨。無論AI是否真的想要統治我們,我們是否應該對AI和AI研發施加一些限制?
LeCun:我認為,對於研發來說,不需要任何限制。但如果你想推出一個家用機器人,你可能會希望硬編碼一些規則,在系統構建時嵌入遵循法律,比如當有人在場時,機器人不能拿著刀亂揮。
當前AI系統的設計在某種程度上是固有不安全的。你需要訓練它們按照你的意願行事。我提出了一種稱為目標驅動的另一種架構,AI系統基本上只是為了實現一個目標而存在,不能做任何其他事情,只能在這個目標的約束下行動。
Q:現在很多人,包括Hinton和Benjo在內,都支持一封由OpenAI現任和前任員工簽名的信,呼籲AI公司的員工有權警告技術的嚴重風險,你沒有支持那封信。你是怎麼看待模型安全這個問題的呢?
LeCun:我不是這個意思。比如像禁止在公共場所使用大規模人臉識別這樣的措施是件好事 。
還有一些措施,比如未經允許就改變某人在影片中的面部,這基本上已經是合法的,我們擁有這些工具並不意味著它們就不違法。可能需要針對這些行為製定定特定的規則,但我對此沒有意見。
我對AI本質上危險以及需要監管研發的觀點有異議,我認為這是適得其反的。在未來,我們將擁有那些我認為對未來民主至關重要的開源平台,那些規則將會適得其反,它們會讓開源變得太冒險,以至於任何公司都不敢分發,這樣這些私人公司將控制一切。
如果一切都來自美國西海岸的三家公司,我們都說著同樣的語言,有著同樣的文化,這完全不可接受。
他們想要的是開放的平台,然後可以針對任何文化、價值體系或興趣中心進行微調,這樣全世界的用戶都有選擇,他們不必使用三個助手,他們可以使用其他的。
我們在印度與幾個組織合作,下一個版本的Llama能夠說印度所有的22或29種官方語言,這甚至還不足以涵蓋印度的所有語言,因為印度有700種語言,其中大部分是口語,沒有書面語。現在我們有技術可以讓聊天機器人實際上處理純粹的口語,這是令人驚歎的。
我們在越南也做了類似的努力,我們看到全世界的人們都在調整這些模型,並將其用於各種用途。我認為我們需要一種更自覺的全球合作夥伴關係,這些系統從一開始就作為基礎模型,能夠說世界上所有的語言並理解所有的文化,這樣的話,這些努力就會更容易成功,我們可以為各種應用構建專門的系統。
參考鏈接:
[1]https://www.youtube.com/watch?v=UmxlgLEscBs