Others

不拚長度拚速度，LumaAI的影片生成模型如何差異化？

08月29日 20:22 新浪網 news-china-auto-hilite

以2月的Sora發佈為標誌，視覺模型在2024年崛起。此前大部分模型公司在視覺模型的佈局是先圖片再影片，或者一個模型搞掂圖片和影片。不過有一家公司卻是先做了3D生成模型，再做了影片生成模型，並且在技術上有所創新。

這家叫Luma AI的公司，第一個出圈的產品是由3D生成模型Genie支持的智能手機應用，它允許人們僅憑智能手機攝像頭，就簡單的生成各種3D圖像，這個應用獲取了百萬級用戶。

在2024年，它推出了一個叫Dream Machine的影片生成模型，這個模型基於高效的多模態Transformer架構構建，並直接在影片上進行訓練。在某些性能上相比傳統影片模型有一定優勢。

在今年早些時候，它獲得了A16z領投，Matrix、英偉達以及多位個人投資者參與的4300萬美元B輪融資，這使它的累積融資額達到了7000萬美元，也讓它有更多的資源提升計算能力，數據和團隊，以便訓練更好的視覺模型。

120秒生成120幀，不卷長度卷速度的影片生成模型

這一輪AI技術的崛起是大語言模型和視覺大模型共同推動的。一部分人認為語言是通往AGI的必經之路，更多的人則認為視覺是關鍵。視覺模型可用於各種生成式人工智能應用——包括逼真的影片生成、遊戲、交互式3D世界構建和機器人技術。

LumaAI顯然是後一派，從3D大模型到影片大模型，他們跳過了語言模型和圖片模型，為視覺模型增加了空間和時間的元素，更加接近真實世界。

LumaAI認為多模態是智能的關鍵，它們將打造最終與真實世界互動以實現改變的AI系統。

LumaAI由Amit Jain（CEO）和Alex Yu（CTO）共同創立，Amit Jain曾在蘋果公司工作，負責了Vision Pro的多媒體體驗，在3D計算機視覺、相機技術、機器學習等方面有豐富的實踐經驗。Alex Yu曾在Adobe公司工作，並在伯克利的人工智能研究實驗室與Angjoo Kanazawa教授一起研究神經輻射場（NeRFs），他曾在CVPR和ICCV等AI領域頂會發表過多篇論文。

在B輪融資之後，LumaAI的領導團隊引入了幾位頂尖人才，來自NVIDIA的Jiaming Song，擔任首席科學家，領導基礎模型研究團隊，Jiaming Song曾領導擴散模型（如DDIM）的研究工作；來自伯克利的Matthew Tancik領導應用研究團隊，他參與創造了神經輻射場（Neural Radiance Fields），這是3D神經渲染領域最具影響力的新方法之一；蘋果設計工作室的Tuhin Kumar則領導設計團隊。

A16z合夥人Anirney Midha表示：「生成式AI的巨大機遇在於讓數十億人能夠創造出以前只有少數人敢於夢想的事物。Luma憑藉世界級的多模態研究和產品設計能力，正引領這一浪潮。Luma的團隊彙聚了計算機視覺、圖形學和深度學習領域最傑出的科學家，他們已經推出了被數百萬人使用的產品。我們非常高興能與Amit、Alex和他們的團隊合作。」

3D生成模型Genie

3D領域的第一個重大突破出現在2022年，Get3D、PointE和DreamFusion等研究論文發表。這引發了該領域的研究熱潮，僅2023年9月就有超過20篇相關論文提交到ICLR。研究人員終於攻克了生成過程中的一些主要挑戰，如「雙面問題」（Janus problem）。

但是很多方法的速度很慢，生成一個內容可能需要1個小時。所以能夠在保證視覺質量的同時加快生成質量就變得很有意義。Luma AI構建了快速、高質量且可部署的3D生成基礎模型Genie，它能通過自然語言提示在10秒內創造出任何3D對象。Genie基於大量3D形狀、紋理和場景數據集的訓練，它在網頁端、Luma iOS應用程序以及Discord社區中提供。目前已經有百萬量級用戶。

Luma AI的聯合創始人兼首席執行官Amit Jain表示：「Luma的核心理念是，所有視覺生成模型都需要在3D環境中進行推理和工作，以創造看起來合理且實用的影片、場景和世界。」

在3D領域，Luma AI並不是唯一玩家，創業公司例如Hypothetic、Auctoria AI和Kaedim都推出過類似功能，Autodesk和英偉達也分別推出了ClipForge（可根據文本描述生成3D模型）和Get3D（將2D圖像轉換為3D模型）等應用。

LumaAI的聯合創始人Alex Yu表示，LumaAI的3D模型優勢在於高保真度，因為一些3D圖像生成模型是在二維圖像上訓練的，它們生成的內容經常‘扭曲空間、身體和動作’，而LumaAI生成的內容則連貫可用，並具有高保真度。

影片生成模型Dream Machine

Luma AI的影片生成模型Dream Machine採用了與3D模型Genie類似的技術和產品策略，卷速度，卷可控性，開放。

Dream Machine與AWS合作，使用它們的H100搭建成的超算訓練。與一些影片模型基於圖片訓練不同，Dream Machine是使用Transformer直接基於影片數據訓練，這讓它的模型更加「理解」人物、動物和物體與現實世界的互動方式，生成的影片內容能夠忠實呈現特定物體、人物、動作和環境，講述連貫故事，並始終保持流暢的動作。

此外，Dream Machine不像一些模型去捲長時長，15秒甚至1分鐘，現階段只生成5-10秒鍾的影片片段，但是它能夠在120秒的時間內生成120幀畫面。對於創作者來說，這加快了它們迭代創意的速度。

在初版Dream Machine發佈2個月後，Luma AI發佈了Dream Machine 1.5，新模型的提升在於更逼真的效果、更出色的動作追蹤能力，還有一個重大升級在於文字方面的能力，一方面它的提示遵循能力增強，另一方面它支持了多語言（例如阿拉伯語），而且能生成更準確的帶有文字的畫面。這方面的突破，有助於設計人員設計動態標題動畫標誌和演示文稿的動態屏幕圖形。

儘管OpenAI的Sora開啟了今年的視覺模型潮，但它仍然在封閉測試階段，而且OpenAI應該會把它作為一個閉源模型來運行。Luma AI則已經將Dream Machine的使用權限廣泛開放，這也讓它的用戶數量飛速提升，根據similarweb的統計，它的影片生成器網站（lumalabs.ai）流量在今年6-7月份增長了33.4%，總流量達到2250萬次，而一些競爭對手的流量在同期則只有1210萬（veed.io）和240萬次訪問（synthesia.io）。同一時期，Google的Gemini流量環比下降14.3%，Microsoft CoPilot的獨立版本環比下降13.4%，這更說明了它的受歡迎程度。