Boson李沐、Luma 桑治佳銘：AI科學家能不能理解普通人對AI的需求，怎麼理解？

作者｜Jessica郵箱｜JessicaZhang@pingwest.com

從o1到Cursor，再到Canva和Notebooklm，大模型正在快速進入應用落地階段，所有創業者和開發者甚至研究者都要思考如何讓這個技術直面用戶，更快走入消費者市場。

在加州聖克拉拉剛剛舉辦的2024華源年會上，矽星人創始人駱軼航與BosonAI聯合創始人李沐，Luma AI首席科學家桑治佳銘，以及加州大學伯克利分校增強現實中心執行主任楊安進行了一場對話，討論了今天AI技術在進入消費者市場過程里的挑戰，最新的模型發展趨勢，以及作為創業者在創業一線感受到的冷熱變化。

以下為對話實錄：

駱軼航：上台前我的一個朋友說，我是來負責拉低這場panel智商的。我非常同意，畢竟我自己沒有PhD或科學家背景，而是媒體和社區出身。但正是這些經歷，讓我能從不同角度提出一些問題。比如幫助大家將前沿的AI研究轉化為真正面向消費者的東西，這其實也很有趣。好的，那麼首先讓我向在座各位提一個問題。

大家作為既熱衷於AI學術界又致力於為消費者打造真正AI產品的個人，是如何將前沿AI研究轉化為面向消費者的成果？這是你們日常工作的一部分嗎？

楊安：我可以先回答。我目前在教育行業工作，而孩子們將成為下一代用戶，也是未來公司需要僱傭的勞動力。因此，創新以及如何部署這些創新來真正幫助下一代，是我的關注點。這意味著以用戶為中心的設計，我們必須理解孩子們的需求。

隨著技術的不斷髮展，每個現代家庭的父母都必須成為創新者，家庭里的每個孩子也必須成為創新者，因為舊的學習方式幾乎在我們眼前消失了。我們剛剛聽到兩位教授講述了如何進入頂尖大學。我知道家長和學生們必須找到新的方法來展示他們的能力和資質。因此，我想發掘更多這些方面的內容，希望新技術能夠更好地為他們服務。

駱軼航：佳銘，你怎麼想？

桑治佳銘：從我的角度來說，我認為問題是作為學術界和工業界的從業者，如何保持好奇心。兩者的衡量標準是不同的，學術界通常是為了發表論文，讓你的研究被社區認可，而工業界更多的是關於如何建立產品，並為更多人創造長期影響。因此，雖然兩者都需要創新，但在工業界，某些更難的問題反而可以更容易解決，因為有長期規劃，而不是專注於學術研究。在Luma我們主要關注產品。和我交談的人提出了許多難以實現的需求，這對我們研究人員提出了挑戰，因為我們當時無法解決這些問題。但也讓我們有機會提出一些從根本上改變現狀的新解決方案。

駱軼航：那麼在Luma，工作模式是產品團隊推動研究人員實現這些目標嗎？

桑治佳銘：實際上是雙方相互推動。研究人員對什麼是可能的有更好的理解，而產品設計師當然有全新的願景，但有些願景短期內很難實現。不過他們的願景確實非常出色。因此這更像是在權衡短期和長期的能力。

駱軼航：李沐，你怎麼考慮這個問題？

李沐：過去十年我主要從事AI技術工作，幫助解決不同的問題。大多數是B2B業務，比比如幫助像Amazon這樣的公司開發新產品，或者幫助初創公司為大型企業提供客戶解決方案。但幾個月前，我意識到，為什麼不利用這些技術來解決我自己面臨的問題呢？比如，我有兩個孩子，我花了很多時間照顧他們。那麼是否有可能用技術讓孩子們更快樂，或讓教育更好？我還考慮到父母，是否可以用技術幫助老年人？現在的技術已經好到足夠可以服務於孩子們和老年人。

駱軼航：所以這促使你開始創業，專注於如何用AI幫助你自己和家人？

李沐：我覺得這是一個很好的機會，可以探索新的方向。

駱軼航：那麼讓我們更深地探討這個話題。在研究人員和消費者之間的關繫上，你以深度學習的布道者而聞名，那麼你接觸非AI專業人士的經歷，是否有幫助你更好地理解人們對AI的需求？

李沐：是的，我一直試圖幫助一些特定人群，比如碩士研究生，他們的導師通常忙於寫提案，沒時間教他們，所以這些學生需要幫助。另外，一些剛畢業進入工業界的學生也面臨很多挑戰。他們可能沒機會接觸最前沿的技術，但需要趕上這些新的技術浪潮。所以我考慮如何幫助這些人，但後來我意識到，很多人並不是真的想深入瞭解技術，他們只是把學習當作一種陪伴的方式，享受知識流過大腦的感覺，而不必記住所有內容。這改變了我與孩子們的相處方式。有時候我們不一定要教他們什麼，而是一起享受這個過程。

駱軼航：這是你第一次這樣表述自己對「布道」的想法。你其實並不是在真正要教會那些觀眾，而更像是他們的陪伴者，對吧？所以這是否激發了你去做一些類似於AI伴侶的東西？

李沐：是的，這是其中之一。

駱軼航：很酷。那我們繼續討論AI伴侶的話題。你之前在社交媒體上提到你會做一些與此高度相關的事情。AI伴侶這個想法出乎很多人的意料。因為你之前一直從事其他領域的工作，但現在你和你的團隊正在嘗試開發一個具備最高IQ和EQ的AI伴侶。那它會是什麼樣子？它的形態如何？

李沐：這是個好問題。我們目前的重點是AI技術，這隻是我們想要模型前進的一個方向。我認為我們現在擁有的技術離最終目標還很遠，這個目標是模型或智能體能夠像人類一樣，甚至不一定是人類，只要足夠智能。尤其是對年青人而言，能夠被認作是他們的朋友，要達到這個目標還有很多事需要做。如果你現在看看ChatGPT，甚至是幾天前宣佈的ChatGPT實時功能，一開始非常令人驚豔，但過了一段時間後，你會發現它還是有很多不足，很多邊緣案例處理得不好，它並不真正理解你。

所以，最終我們設想的模型不一定是那種擁有超高智商的傢伙。因為在生活中，大多數情況下你不需要重覆教導別人，而更多的是情感支持。因此，模型需要非常好地理解人類情感。目前這很難做到，原因是我們缺乏足夠的數據。雖然我們有大量編碼數據和教科書數據，但我們沒有足夠的數據來理解人類情感和背後的邏輯推理。這使得在建模方面很難，

駱軼航：既然你提到了這些挑戰，你認為你們能完成這個任務嗎？你們能夠構建一個具備最高情商和智商的AI伴侶，而其他團隊——比如Character AI之前未能實現這個目標——相比他們，你覺得你們的優勢是什麼？你為什麼相信你們可以做得更好？

李沐：我並不認為他們失敗了，只是遇到了一些問題導致放棄了。Character AI的模型團隊去了Google，可能繼續開發相關技術，但作為一家公司，他們可能覺得這個項目需要五年或更長時間才能實現。因此這並不是成功或失敗的問題，而是五到十年的遠景。我認為我們需要這樣的AI伴侶，因為現在人們變得更加孤獨和孤立。過去可能三個人就能組成一個團隊，但現在一個人就能用各種工具，比如Cursor、Copilot和ChatGPT，獨自構建產品。所以當每個人都可以獨立工作時，你會發現沒有人可以交談。未來每個人都忙於自己的工作，沒時間聽你說話。AI伴侶可以成為你傾訴的對象，總結來說，我認為我們做到了。

駱軼航：好的，那麼讓我們轉向佳銘，仍然是關於面向消費者的內容。不過在此之前，我需要提出一個技術問題，昨天Meta發佈了他們的一個影片生成模型，叫做Movie Gen，令人驚訝的是，它捨棄了擴散模型，轉而採用了一種新的架構，名為Flow matching。你對這一點有什麼看法？畢竟你在職業生涯中做了大量擴散模型的研究。

桑治佳銘：我認為在Flow matching、擴散模型以及擴散transformer這些概念之間，人們的理解存在一些誤解。首先我要總結一下，流匹配與最初提出的擴散模型框架有所不同，但差別並不顯著。它的不同之處在於，相同訓練預算下能夠在較少的采樣步驟內取得更好的效果。不過類似的結果早在Stability以前的論文中就已經展示過，他們使用了一種稱為「修正流」（rectified flows）的概念，這實際上與Flow matching的想法非常相似。修正流最初是由德州大學奧史甸分校張召(Zhang Zhao)教授團隊提出的，他們還進一步擴展了該概念。因此這並不是一種全新的模型。

駱軼航：那與現有擴散模型相比，它的區別在哪裡？

桑治佳銘：在擴散模型中，一個非常重要的概念是將噪聲與原始輸入混合，而流匹配和傳統擴散模型之間的差異主要體現在如何混合這些輸入，以及在信號與噪聲的比例（通常稱為信噪比）上的不同。擴散過程通常是從信噪比無限大（無噪聲）到信噪比為零（無原始信號）的過渡。Flow matching也在這個框架內，不同的是它在這個過渡過程中的調度和信號縮放方式不同。

駱軼航：你覺得這種流匹配架構對用戶，比如那些創作者，會有什麼影響？

桑治佳銘：流匹配作為一種算法，可能會加速訓練和推理過程，這也是大家在擴散模型中試圖解決的關鍵問題之一。比如我個人之前在解決這個問題時，通過算法改進將推理速度提升了5到10倍，之後還有很多後續工作也在改進采樣速度。而與擴散模型類似，流匹配會繼續在這些領域中存在，因為它與擴散模型的訓練技巧非常相似。至於transformer，它是一種通用架構，目前大模型，比如自回歸transformer，在語言模型中廣泛使用。所以這些算法和架構雖然有區別，但它們之間是相關聯的。流匹配和修正流的影響在於，它們提供了更好的超參數來訓練這些模型。

駱軼航：好的，那我們來聽聽Alan的看法。Alan，你的研究和工業界的商業化非常接近，尤其是在AR或VR領域，並且與你提到的以人類中心的用戶體驗設計密切相關。那麼你是如何從潛在的AI消費者中學習的？比如那些年輕父母、青少年，甚至是新生兒，他們可能是這類AI產品的早期採用者。你是如何確保你的研究以人類為中心，並且準確達成這些目標的？

楊安：我可以舉幾個例子。我拿到了計算機視覺方向的博士學位，那是在26歲左右，那個時候深度學習剛剛興起。大家都知道，隨著技術的發展，教授們越來越忙於寫論文，可能沒有太多時間教學生。我認為，作為教授或者教育行業的從業者，我們唯一需要關注的用戶就是孩子、學生，以及他們的父母。我們如何幫助他們？目前我還沒有看到任何AI產品能夠真正引導孩子們去學習STEM（科學、技術、工程、數學），學生的學習動機仍然依賴於學校、孩子和父母之間的合作。

在伯克利，我們創建了一些項目來激發孩子們對技術的興趣，比如AI賽車項目。令人驚訝的是，年僅六歲的孩子們已經開始討論自動駕駛了。我認為，通過這種方式，我們可以讓學生們感受到技術的興奮和價值，從而激發他們的學習興趣。

在這個AI賽車項目中，我們發現從五歲到七十歲的人都能立即理解賽車的意義。無論是用無線遙控在廚房裡操控賽車，還是在賽車場上以150英里的時速賽車，都能激發他們的興趣。因此，我們的項目吸引了很多有才華的本科生和研究生參與，他們能夠看到自己的貢獻如何變得有趣和有價值，並將其介紹給父母或未來的僱主。

駱軼航：那麼在伯克利，你會遇到來自各種背景的年青人，他們可能學習文學、哲學、社會學等學科，有些人甚至對人工智能有牴觸情緒。你如何看待這個差距？你將如何彌合這些誤解？

楊安：我再給你舉兩個例子。其中一個是我們目前在伯克利正在進行的項目。我們在伯克利有一個頂級領域，叫做TAI，代表教學助理智能平台（Teaching Assistance Intelligence.berkeley.edu）。這個想法是利用GPT技術，為每門伯克利的課程提供24/7的GPT個人助理。要知道，在伯克利，我們有超過5萬名學生，很多基礎課程可能有上千名學生參與，甚至在多個班次中一起上課。為了給學生提供更好的教育，一個方式就是去中心化教育。而通過24/7的GPT助理，可以讓學生在任何時候獲得幫助。我認為，下一代對這些技術的牴觸會比老一代小得多，就像我女兒，她一發現特斯拉可以自動駕駛，完全沒有感到擔憂，這對她來說是非常自然的事。我相信，當她長大後，會覺得所有的車都應該自動駕駛，而手動駕駛的車可能會變成她這一代人的「古董」。

當然，這個過程並不能應用於所有方面。比如我們目前正在與高通公司合作的一個研究項目，發現設計師和工程師之間存在很大的鴻溝。假如我們想要設計一個全新的用戶界面，這並不是AR或VR的界面，也不是傳統的UI，而是基於GPT的UI，類似於電影《鐵甲奇俠》中的賈維斯。我們發現設計師在這個項目中的第一個問題就是，他們對大語言模型（LLM）如何觸發操作系統功能完全沒有概念。因此，傳統設計師需要接受相當系統的教育才能理解如何將GPT集成到界面中。這是我們在伯克利通過研究長期解決的一個問題，我們需要立即解決這些問題，而不能等到下一代。

駱軼航：同樣的問題轉向佳銘，想聽聽你從用戶端的反饋，尤其是關於Dream Machine的用戶，他們可能是個人創作者或專業的影片製作工作室。我猜測，大多數用戶可能需要連續運動的角色，可能持續30秒或更長時間，或者需要更加真實的3D圖像，同時希望生成成本能大幅降低。那麼這些用戶的痛點是可以通過逐步改進來解決的，還是需要從零開始進行新的研究？

桑治佳銘：這是個很好的問題。我認為用戶的需求非常多樣化，而我們實際上是在Dream Machine推出後才真正瞭解到用戶的需求。因此，我們確實在推出時並不瞭解這些需求。但我們確實從用戶的行為中學到了很多，他們的想像力遠遠超出了我們的預期。我認為有些需求可以通過擴大規模來滿足，然而生成影片的成本依然很高，因為影片包含大量像素，並且需要處理龐大的上下文信息。因此，確實需要一些基礎研究的改進來進一步降低成本。但我對這個領域的進展持樂觀態度，因為我們看到，在過去兩年中，語言模型領域的成本大幅下降，而圖像生成的質量也顯著提高。所以我對未來的進展充滿信心。

駱軼航：太棒了！接下來我們再討論一下未來的趨勢。大家怎麼看待未來AR或VR設備的發展？比如Meta剛剛發佈的Orion眼鏡，以及在AR設備中的內容生成和影片生成模型的結合。佳銘怎麼看待這個問題？畢竟luma目前沒有從事硬件方面的工作。你如何看待影片生成與AR或VR設備的結合？

桑治佳銘：我認為影片生成和圖像生成在3D和4D生成中非常有用，未來我們肯定會看到更多的4D生成工作。過去一年里，隨著影片模型的出現，確實有更多的應用場景，因此它們在AR和VR應用中也非常有用。不過，要想看到廣泛的應用，我們確實需要看到這些硬件的廣泛普及。

駱軼航：李沐，你認為AI伴侶是否會在虛擬現實環境中存在？

李沐：是的，這是我們與一家大型遊戲工作室正在合作的項目之一。他們已經做了很多開放世界的3D遊戲，但我們設想，下一代遊戲不再需要1000個設計師來編寫劇情，而是由邏輯模型自動生成所有的故事情節、角色、事件和互動。這是AI生成的劇情、角色、社會和人類之間的互動，應該是有趣且一致的。

駱軼航：我是三國遊戲的超級粉絲，如果遊戲中的每個角色都由一個足夠強大的視覺模型生成，他們會彼此互動，我們也可以和他們通過自然語言進行對話，會非常有趣。

最後一個問題，請每個人給出一個簡潔的回答。

你們怎麼看待多模態模型在實現通用人工智能目標中的作用？早上，李開複在台上談到了多模態的重要性，他說多模態模型將推動大量的創新應用。你們怎麼考慮？

桑治佳銘：語言建模中的一個核心概念是可擴展性，基本上是你擴大數據和模型的規模，性能就會變得更好。有些人認為這是一條通往AGI的道路。不過，我們不能無限增加模型規模，但我們可以顯著擴大數據規模。語言建模領域幾乎已經用完了所有的語言數據，正在依賴合成數據生成，但在影片、音頻等多模態領域，還有大量的數據尚未利用。因此，我認為多模態AGI的路徑在於利用這些海量的數據。

李沐：過去半年，我們在音頻多模態領域進行了一些研究，發現現在的問題是，在開始的前一分鐘，多模態模型的表現都很好，能夠處理情感信息。但一分鐘之後，文本模型的表現依然更好，推理和上下文的處理依然是文本主導。因此，文本仍然是關鍵，其他模態可以讓產品更加有用，但能否顯著提升效果，暫時還不確定。

駱軼航：好的，今天的討論就到這裏，希望大家都享受了這場討論。謝謝各位！