「階躍星辰」的一次豪賭
文|丹恩詠儀
編輯|蘇建勳
5月8日,久不露面的階躍星辰CEO薑大昕,出現在北京的一場媒體溝通會上。
「在多模態領域,如果任何一個方面有短板,都會延緩探索AGI進程。」薑大昕給出了一個鮮明的判斷。過去一年中,他在不同場合都在反復提及:多模態是實現AGI的必經之路。
在六小龍中,比起在融資、市場聲量上有烈火烹油之勢的其他選手,階躍星辰的低調格外顯眼。
這家公司最不聲不響,但又能有獨特的身位而被記住——過去兩年中,它沒有參與應用投流的狂熱之中,在To C應用上也僅是有所試水。
多模態如今成為了階躍最亮眼的標籤,這家公司正在傾注大部分力量探索這一道路。
成立兩年,階躍一共發佈了22款自研基座模型,覆蓋文字、語音、圖像、影片、音樂、推理等。這其中,有16款是多模態模型,佔比超7成。階躍也因此在行業內被稱為「多模態卷王」。
但多模態的發展階段和語言模型並不相同。
在技術路線已經收斂的語言模型領域,幾乎所有公司都已經沿著差不多的技術路線迭代,但多模態的技術探索尚在早期。從頂尖大廠到AI初創,都像在迷霧中穿行。
在2024年Sora震撼全球時,不少AI創業者就有著不一樣的意見。「Sora出來的時候,其實我們比較失望,我們覺得它的主線應該是做理解生成一體化,但他們只做了生成,沒怎麼做理解。」薑大昕表示。
薑大昕對《智能湧現》表示,如果對標語言模型的技術演進時間線,階躍所押注的「理解+生成一體」的原生多模方向,可能還處在GPT 1.0之前,Transformer剛出來時的階段。
多模態的一大難點,是融合過程中不能損失單個模態的性能,尤其是不能降智。階躍採取的技術路線可以說是「難上加難」:同一個大模型,既要做理解,也要做生成。這是階躍星辰從成立之初,就定下的發展主線。
做理解和生成,是原生多模方向的一體兩面,這意味著:
能理解:模型能理解畫面中的物體關係,這需要生成端來監督
能生成:生成的內容,也需要理解來控制,保證其不是超出物理世界認知的
直到2025年GPT-4o image的發佈,吉卜力、擬人化的風格濾鏡點燃全球,多模態又重回全球AI舞台的中心。而DeepSeek為代表的推理模型的進步,也能夠為多模態的技術探索,補足一塊重要的拚圖。
多模態和Agent,是2025年當仁不讓的兩個關鍵詞。在過去一年中,薑大昕也在不同場合反復強調:多模態是AGI的必經之路。而Agent,則是當下業界在AGI道路上探索出來的初始形態。
當前,階躍也在重點佈局Agent這一領域。在汽車、手機、具身智能、IoT等關鍵應用場景里,階躍已經和Oppo、吉利汽車集團、千列高技等企業合作,將Agent應用在關鍵場景中。
在DeepSeek一飛衝天,引爆全球之後,它的另一面是——當原來堅如磐石的技術壁壘被擊穿,所有人都不得不走到了一個焦慮的十字路口上:接下來,技術路線該怎麼走?
大廠有存量的場景和用戶,尚有充足的時間騰挪方向,加大火力。對大模型初創而言,這個拷問尤為緊迫。短短兩個月時間內,大模型六小虎有裁撤團隊、砍To C應用者;也有停止投流者,重新將重點放到語言模型中。
對創業公司而言,去探索更前沿、更未知的領域,或許是這個階段更重要、也更確定的事。
對階躍而言,這也是一場豪賭——現在,階躍內部已經組織起不同技術路線的數支團隊。「哪一條路線都有可能出現突破,要形成併發的狀態。」薑大昕說。
在這次溝通會上,薑大昕除了披露了未來的模型和產品計劃外,也對當下的多模態領域給出了關鍵判斷,經《智能湧現》編輯整理:
多模態任何一個方面有短板,都會延緩AGI進程
-
追求智能的上限仍然是當下最重要的一件事。我也在很多場合不停的重覆:多模態是實現AGI的必經之路。
過去兩年,我們看到整個行業的模型進化,基本上還是遵循了這個路線圖:模擬世界—探索世界—歸納世界。
從技術路線上講,眼下的發展,也是從單模態到多模態,從多模融合到理解生成一體化,再從強化學習到AI for Science。
-
階躍從一開始就始終認為:多模態對通用人工智能非常重要。為什麼?
首先,AGI對標的是人類的智能,人的智能是多元化的,每個人除了有來自語言的符號智能,還包括視覺智能、空間智能和運動智能等等,這些智能是需要通過視覺和其他模態來進行學習的。
從應用角度來講,我們無論做什麼應用,都需要AI能聽、能看、能說,這樣它才能更好地理解用戶所處的環境,並且和用戶進行更為自然的交流。多模態可以讓智能體充分地理解和感知這個世界,這樣它可能更好地理解用戶的意圖。
所以,在多模態領域,任何一個方向出現短板,都會延緩實現AGI的進程。
-
在多模態層面,下一步的模型發展趨勢有兩點:一是,在預訓練的基礎模型上加上強化學習,可以激發模型推理的時候產生長思維鏈,極大地提高模型的推理能力。
-
從OpenAI發佈o1,到春節前DeepSeek R1發佈,我覺得這是一個標誌,推理模型從一個趨勢變成了範式,現在語言模型基本上是推理模型一統天下。
這是非常火熱、大家都爭前恐後在做創新的地方。稍微更新一點的,大家不太注意的一個能力,其實是如何把推理引入到多模態領域。
比如,我給一張這個圖片(足球比賽),問這個模型這張圖片是誰的地方,是誰的主場?這是把模型的感知能力和內部知識能結合起來,一起去做推理,就比原先的視覺理解就強化了很多。

-
第二個趨勢是多模理解生成一體化,更準確的講,是視覺領域的理解生成一體化,理解和生成都用一個模型來完成。
為什麼一定要做一體化?比如這個影片中,老師寫板書,老師的手的姿勢,粉筆在黑板上寫的痕跡,比如Sora是可以去模擬之後的樣子的。但是老師寫了一半停下來說他以後會寫什麼內容,這是需要理解模型來預測的。
生成的內容是需要理解來控制的,你為了保證生成的內容是有意義的、有價值;
而反過來,理解是需要生成來監督的。只有當我能夠生成,生成的時候,我才知道我是真正地理解了。
理解生成一體化,能更好地幫助生成的推理。
我舉個例子:人在畫一幅大畫的時候往往不是一下子就全畫完的,現在模型畫圖的時候一次性就出圖了,但人畫的時候會有一個構思,可能想大的結構是什麼樣的,後面再畫細節,是一步一步畫出來。
畫圖實際上是一個思維鏈的過程,為什麼我們模型生成的時候不是思維鏈?就是沒有理解生成一體化,我要畫一個框架根據這個框架再畫點東西再生成、根據生成的東西再生成,甚至覺得這筆畫得不太好,反過來改一改再生成,現在就還是堵到這個問題上,就是理解生成不一體,所以他很難用長思維鏈一步一步的方式去做生成。

-
在語言領域,Predict next token(預測下一個字元)是唯一任務,整個訓練的過程就是看你判斷Predict得對不對。
平移到視覺領域,大家就會問:我們能不能用一個模型去做predict next frame(預測下一個畫面)?這是視覺領域的一個靈魂拷問。很不幸,這個問題仍然沒有被解決。
沒有解決的原因在於模態的複雜度。大家說,語言是很複雜的,但是從統計來說,語言是一個簡單的東西,因為語言至多就十幾萬個token。
但在視覺,一張圖片,我們先不說影片,一張圖片1024×1024,就是100萬維,每個維度還是一個連續的空間,難度是不一樣的。
-
在語言領域,2017年Transformer出來,對業界最大的意義在於,這是一個可以scale(擴大規模)的文本的理解生成一體化的架構,在那之前,其他的模型基本都不能Scalable。
2020年的GPT-3,意義在於:我們第一次把海量的互聯網數據放到了這個scalable的架構上,用一個模型處理所有NLP(自然語言處理)的任務;
2022年,ChatGPT出來了,就是在預訓練的模型的基礎上再加上指令跟隨,這是GPT-3.5做的事情;
GPT-4的時候,這個能力就進一步增強了,”GPT4時刻”,指的就是在這個模態上,我們的模型真正能達到跟人的智能差不多的水平。
現在,我們加上了推理,就可以解決非常複雜的問題。
-
再往後是什麼呢?很多人就覺得應該是在線學習或者是自主學習,就是能夠不斷地自己根據環境去學習到新的知識。
到目前為止,我們覺得語言模型的技術路線基本上收斂了,沒有出現別的分支。所以,我們相信其實視覺也是可以follow同樣的路線。
那第一步就是有一個非常scalable的架構。多模態的「理解生成一體化」這件事,類比到語言模型,甚至應該是在Transformer這個level的事情。那時候還沒有GPT,Transformer是2017年出來的,GPT-1是2018年出來的。
DeepSeek告訴我們,投流的邏輯是不成立的
-
我覺得DeepSeek出來給我們一個經驗,就投流的邏輯是不成立的。DeepSeek從 來沒有做投流,它如果放開這個流量,破億是沒有問題的。
當然,我們要重新思考一下,AI時代的產品的流量增長,是不是真的像傳統的互聯網還是靠投流上去的,DeepSeek出來以後,給大家一個重新看待這個問題的窗口。
不光是DeepSeek,像《哪吒2》《黑神話悟空》其實都有一些共性,不是靠傳統的鋪天蓋地地投流積累用戶的。
-
模型的突破是早於商業化的。我剛才做了一個比喻,先有GPT-3.5才會有 ChatGPT,先有多模融合和推理模型,才會有現在成熟的Agent。先要有了多模理解生成一體化,尤其是scalable的一體化,才能真正地做到人形機器人的泛化。
如果是那個東西突破了以後,它的價值就不光是在Agent這方面了,我最想看到它在具身智能的泛化、包括建立世界模型方面有新的突破表現。

-
2025年,我們將產品名稱「躍問」改名叫「階躍 AI」,就是意味著它從一個類ChatGPT的產品,到Agent的能力的轉變。
對Agent的產品和商業化層面,我們的智能終端其實是ToC的,雖然我們和頭部企業合作,但階躍這些和頭部企業合作的產品,最終是服務C端。
-
為什麼我們還會堅持基礎大模型研發?我覺得現在這個行業的趨勢技術發展還是在非常陡峭的區間。
2024年Sora剛出來,給大家的震撼很大,但今年回頭去看,大家會覺得Sora沒有什麼神奇的。階躍不想在這個過程中放棄主流增長或前進的趨勢,所以我們還是會堅持做基礎模型的研發。
在應用的角度來,我們一直覺得應用和模型是相輔相成的,也就是說模型可以決定應用的上限,應用給模型提供具體的應用場景和數據。
數據也是非常重要的,產品形態隨著模型的演變,這是動態發展的。
綁定行業頭部公司,專注終端Agent
-
隨著模型能力不斷的增強,有什麼樣的模型,決定了有什麼樣的應用可以被解鎖、可以成熟和繁榮。
最早期的時候,比較流行的是各種各樣的聊天機器人;有了Agent以後,我們就可以用它來解數學題、寫代碼;
下一步是非常火熱的智能體,我們相信終將從數字世界走向物理世界,延伸到智能駕駛和人形機器人等領域。
Agent其實在2023年就被討論,但到2025年變得非常火熱。我的理解是,Agent爆發需要兩個必要的條件,一個是多模態的能力,另外一個是慢思考的能力,這兩個能力恰好在2024年的時候取得了突破性的進展。
-
我們選擇了智能終端Agent作為我們的方向。首先是,Agent要能更好地幫助人類去完成任務,理解用戶所處環境和任務的上下文。很多的終端是用戶的感知和體驗的延伸,比如手機、耳機,在發起任務的時候,它已經知道任務的上下文了。
第二是,很多的智能終端或者是終端的設備,就是幫你完成任務。比如說微波爐,我家裡的微波爐有上百功能,但是我很少用,所以我希望它是一個Agent,將來放一個芯片在微波爐里,就可以直接跟它對話,智能終端是完全有能力實現這件事情的。
-
我們其實現在在智能終端上也選取了幾個重要的終端:手機、車,還有機器人。
我們和各個方向的頭部企業展開了深度的合作。比如Oppo的一鍵問屏的功能,背後使用了階躍的多模態的模型。拍照片,處理照片,或者是識別一下照片裡面的人物做一些問答,導航功能都可以。
-
對於成為垂類行業的供應商,而不是直接To C或者To B,我們是覺得這個東西很新,頭部企業已經有了大量的用戶,有了場景,我們才能去嘗試這個模型究竟怎麼做。
如果我們上來做ToC的話,我們第一件事情還要做grow user(用戶增長)和場景增長。
所以,我們先和合作夥伴一起合作,等這件事情探索清楚了,將來是不是自己做,我覺得都是有可能的。
現在所有的設備都是孤立的,其實有一個很誘人的場景,對一個用戶來說是,希望它的Agent或者是助手,是能跨設備的,這件事情誰來做?我想肯定有很多人在思考。