思必馳俞凱:分佈式大模型智能體系統是 AGI 時代一道別樣的風景
生成式智能與任務執行智能,是兩種路線目標。
作者丨朱可軒
編輯丨陳彩嫻
曆時兩天(12.10-12.11),今年的 2024 全球人工智能產品應用博覽會已在蘇州工業園區完美閉幕。
在第一天下午的大會主論壇中,思必馳聯合創始人、首席科學家俞凱以「邁向分佈式大模型智能體系統」為主題,深入探討了思必馳在大模型技術路線上的獨到思考,以及其對行業的觀察和見解。
「分佈式大模型智能體系統」是思必馳在深耕對話式人工智能領域十七年後探索出的新發展方向,即:1 個中樞大模型+ N 個垂域模型及全鏈路交互組件組成全功能系統。
當前,國內許多大模型廠商都跟隨 OpenAI 的技術方向,將超級智能作為發力重點。
但俞凱認為,「OpenAI 這一類廠商以單一的、集中式的超級智能為目標去建設大模型,某種意義上是在造一個全知全能的神,在引領技術前沿上有劃時代的重要作用;但在 2B 真實場景落地中,這個技術路線遇到了很多的問題,包括實時私域知識缺乏、專業領域能力欠缺、可靠執行能力不足和系統協作架構缺失等。」
區別於此,思必馳選擇的技術路徑類似於打造一個公司,從 CEO 到 CFO 、CTO 等都各司其職。其中,CEO 是中樞大模型,CFO 、CTO 等是垂域大/小模型,在這之中並不需要每一個大模型都是超級智能,它們是分佈式的,核心的系統目標主要是可靠的任務執行。
現階段生成式大模型都面臨難解的「幻覺」問題,AI 還無法知曉自身的知識邊界何在,而俞凱反復強調的可靠的執行智能所解決的問題便恰好在於此。
除此之外,俞凱還向 AI 科技評論介紹道,「智能體系統和大模型不一樣,大模型或單一智能體現在只強調一個功能模塊的輸入和輸出,最終的用戶體驗不一定好。而「智能體系統」則考慮多個不同的全鏈路功能模塊組合,強調能組成有機整體,從整個系統層面給用戶的交互體驗會更好。」
不過,這些對行業的洞察也是在不斷摸索試錯後,俞凱和團隊才逐步明晰的。成立以來,思必馳在找準自身定位的過程中也遇到過諸多技術難題:
從剛開始只想去提升識別率,到後來開始思考降低成本,再之後又面臨了軟件易複製、智能硬件沒做過的難題,而全鏈路智能語音交互系統、大規模可定製也都存在著諸多需要攻關的技術難點……
以下是 AI 科技評論與俞凱的訪談實錄,作者進行了不改原意的編輯整理:
1
構建分佈式大模型智能體系統
AI 科技評論:可以簡單介紹一下你們的大模型技術路線嗎?
俞凱:我們一直把 ChatGPT 類的大模型叫做對話式人工智能、對話式語言計算。OpenAI 實際上是從預訓練語言模型發展起來的,而思必馳是從一個完整的端到端對話系統發展起來的,一直以多輪交互為核心,不斷迭代出現在的大語言模型。所以雖然殊途同歸,但實際上我們有自己獨特的發展軌跡。
思必馳 DFM 語言大模型是自主的技術研發路線逐漸形成的語言大模型。長期持續開展對話式語言大模型自研的其實不多,可能 2023 年之後講得比較多, 2023 年之前很少,DFM 是 2022 年初正式對外發佈的,而發佈之前內部就已經在用了,是真正意義上的獨立研發。
AI 科技評論:你們和 OpenAI 技術路徑的區別具體體現在何處?
俞凱:OpenAI 這一類廠商是以超級智能為目標去建設單一集中式語言大模型,某種意義上是在造一個全知全能的神,它擅長創作和回答問題,並且可以生成多樣性的回覆。但這條技術路線在面向嚴肅的任務執行場景時遇到了許多問題,包括實時私域知識缺乏、專業領域能力欠缺、可靠執行能力不足和系統協作架構缺失等。
與之對比,我們的技術路線是構建 1+N 的分佈式大模型智能體系統,這個「1」是中樞大模型,相當於大腦,「N」就是不同的垂域模型,大模型、小模型都有,它們都可以是智能體,然後又是分佈式的。
這種模式類似於公司的組織架構,其中,CEO 是中樞大模型,CFO 、CTO 等是垂域大/小模型,從 CEO 到 CFO 、CTO 等都各司其職,在這之中並不需要每一個大模型都是超級智能,甚至所有的都不是超級智能體,這是思必馳跟 OpenAI 在技術路線上很關鍵的不同。
根據我們以往的產業實踐,在實際大多數業務場景中,能夠可靠地執行任務是最重要的,這類場景中的大模型本身不需要超級大,沒有必要不計成本的去堆算力,而是需要許多平常的通用智能體,這些通用智能體具備和人進行交互的能力,當然通用智能體之間也可以互相交互。
AI 科技評論:所以你們的優勢在於可靠的任務執行。
俞凱:對。現在國內外比較火的一些大模型很多是以內容創作生成為核心,但思必馳主要關注的是以工具使用能力為主的執行智能。
二者的側重點不同,生成式強調的是創造性、多樣性、流利性,本質是豐富;執行強調的是不出錯、可靠。現在大模型有各種各樣的「幻覺」,思必馳 1+N 的體系會對執行任務的質量進行保障,乃至於用一些創新的技術思路重新去定義可靠性。
舉個例子,我問 10 個問題,你能答對 6 個,其餘 4 個你不知道,但是也胡亂作答了;他能答對 5 個,其餘 5 個他說不知道,要去問專家。這種情況下,他可能更可靠。一些大模型其實不清楚自己的知識邊界在哪,不懂得拒絕。
思必馳在車載系統里著重強調的拒識能力,就是「我不是在跟你說話,你不要回答我」。總的來講,思必馳的立足點就是可靠執行。其實,思必馳的大模型也可以用來寫小作文、詩歌等,在現階段,這些不是我們的核心出發點。
AI 科技評論:為什麼你們今年一直在強調智能體系統這個概念?
俞凱:加了「系統」兩個字之後,與大模型就不一樣了。大模型現在講的基本都是語言大模型,即使是一般意義的多模態大模型往往講的也是一個軟件、一個算法、一個程序,你有一個輸入,它(模型)有一個輸出。但如若只強調輸入、輸出文字,最終的用戶體驗不一定好。
我們強調的「系統」是要考慮多個不同的全鏈路系統組合,不單單只是智能體,有的可能包括模型,非模型的還有軟硬件協同的問題,大模型實際上是「人的大腦」,除此之外還要讓它有嘴巴、眼睛、耳朵等,這些要與大腦緊密結合,組成一個有機整體,給用戶的交互體驗會更好,這一點很重要。
舉個例子,我說一句話,如果大模型一秒鍾之後才反應,那就很慢了,怎麼在零點幾秒作出反應,還要滿足高度可靠的快速定製需求,這就要在系統層面去實現。
做這套體系時,思必馳用分佈式的方法將參數規模千億、百億、十億等全尺度的大模型結合在一起,形成具備工具智能的可靠系統,這樣才能實現更高的可靠性與產業落地。
2
投身 AI 創業,貴在長期堅持
AI 科技評論:思必馳成立於 2007 年,創業十七年了,您的這些技術思想是一開始就這麼堅定嗎?
俞凱:堅持是一件特別不容易的事,尤其對於處於萌芽時期的事物。我們剛開始做人工智能時,這個領域還沒有像現在這樣倍受重視,我們當時給公司起名叫「AISPEECH」,就是決心要把這件事做好,現在國家商標局已經不允許把 AI 放在前頭了。(笑)
AI 科技評論:可以分享一下對於您來講,你們經歷了哪些關鍵性的轉折點嗎?
俞凱:我在英國待了十年,在劍橋的時候,前五年做語音識別,後五年做對話系統,2012 年我回到國內,思必馳正式開啟了對話式人工智能的篇章。與此同時,我也把數據驅動的對話式語言計算從國外引到了國內,那個時候還不是現在的深度學習,而是早期的貝葉斯學習。那時開始做對話式人工智能,也就是現在大家所看到的語言計算的基礎平台。
在 2014 年 10 月的 CES 電子展上, Amazon 的 Echo 一炮打響,人工智能的硬件載體由手機轉換到智能硬件,思必馳開始從「軟件交互」轉向「智能硬件交互」。這個方向技術難度更大,並且一定程度上區別於僅在雲端去做一般意義的語義處理,實際上,單一功能的雲端 API 調用也很容易被複製。
2017 年,思必馳又有比較大的變化。當時,我們發現軟硬件結合的方向非常好,中國的物聯網硬件設備千奇百怪,需要各種各樣的定製,我們開始研發一系列技術,專注 AI 領域的柔性製造,即把對話系統的模塊任意組合,提升在垂域上的性能,快速進行個性化修改,這是大規模、可定製的對話系統,也就是思必馳 DUI 開放平台(Dialogue User Interface)。
AI 科技評論:你們真正開始切入大模型具體是在什麼時候呢?
俞凱:2019 年。縱觀公司的發展歷程,思必馳於 2013 年研發出對話工場實現全鏈路閉環;2015 年 AIOS 系統實現軟硬件協同的雲端一體,至此對話系統正式開始面向智能硬件;2017 年通過全鏈路智能對話定製平台(即 DUI 平台)實現大規模可定製的柔性人工智能;2019 年有了通用對話式語言模型研發。
此後,思必馳語言大模型 DFM 進入深度研發階段,2021 年發佈了第一個版本。2023 年 7 月,思必馳 DFM-2 大模型發佈,通過 DFM-2 實現通用人工智能的柔性定製,可以開展大規模、高質量、個性化的人工智能系統定製,既滿足客戶個性化的需求,又可以大大提升軟硬件產品的「非標交付」效率。現在思必馳在這個基礎上進一步研發分佈式大模型智能體系統。
AI 科技評論:這麼多次轉變的背後,你們應該遇到過不少困難,都是怎麼解決的?
俞凱:當然。全鏈路的智能對話系統是思必馳的一大優勢,它的構建是第一個難題。
早先我們做語音識別技術,並在美國的比賽中取得了國際領先的成績,但這並不意味著僅憑此項技術就能賺錢了,當時碰到的困難是,就算技術再強也有誤差,沒聽說有誰的識別準確率是 100%。因此,當用戶無法完成任務時,思必馳就必須提供完整的方案,單純的算法優化並不能解決實際問題,必須將其整合到一個完整的對話系統中。
後來遇到的問題是軟件產品容易被複製,思必馳在技術上比較強,也需要把技術轉化成有效性、成本等優勢,雖然軟件也能形成系統,但是偏工具型,所以不能純靠軟件,思必馳要從智能硬件角度切入。
面向智能硬件也遇到了困難,在這個過程中要把沒有學過的知識,通過學習轉化成自己的東西,然後落地實踐。硬件要做嵌入式,就得把它做小,做到芯片里……這些都是需要解決的技術難點。
再往後,思必馳要做大規模定製化,於是我們就開始就拆,對話系統拆了要能再接起來,接起來的時候還要能保障端到端的響應速度是業界領先,思必馳是業界最早把端到端的響應速度做到 1 秒以內的,後來有些人跟進了。這需要從真實的場景當中提煉問題,並通過算法、工程手段和系統架構設計來解決。
3
警惕「拿著錘子找釘子」
AI 科技評論:DFM-2 大模型是去年 7 月升級的最新版,今年有進行技術迭代嗎?
俞凱:今年我們進行了很多迭代,都已經融合到產品中了,簡單說就是悶頭把事給幹了,沿著之前做的事往上疊加大模型能力。
AI 科技評論:你們目前主要在哪些場景中落地呢?
俞凱:主要是兩個方面,一是推垂域模型,二是推到產品里。
今年比較大的落地場景是智能汽車,除此之外有智能家居、消費電子等,還有政府機構、智能製造、科研等一些場景。
AI 科技評論:現在其實市面上許多大模型廠商都沒辦法找到真正的落地場景,所以可以看到最近大模型又有些冷下來了。您覺得這是現階段大家最大的困境嗎?
俞凱:是的,現在大模型廠商面臨的最大挑戰就是商業化落地場景。實際上我們做大模型,是先有端到端對話式系統的應用,然後疊加大模型,先有場景,大模型是嵌入到系統里的。很多大模型廠商現在是拿著「錘子」找「釘子」,而我們有一排「釘子」,用不用這一個「錘子」不一定,因為可能還有另外其他的「錘子」更適合。
現在許多 2C 場景都被互聯網廠商壟斷了,例如:以多樣化文字生成、多模態生成為主的大模型最大的應用場景是內容創作,被抖音、快手等平台壟斷;人機交互知識問答這種偏知識檢索場景被搜索引擎廠商壟斷;純問答場景被電商壟斷;還有其他小的場景,但是沒辦法撐起動輒幾十個億的投入。如何突圍是技術型大模型廠商面臨的巨大挑戰。
如果往 2B 和智能硬件領域發力,就需要系統。這當中,系統和完整的解決方案是否可靠,是不是可以定製化、規模化是核心問題,這是很多純算法廠商不擅長的。要積累的話往往也需要很長時間,因為這些核心問題同技術的先進程度有的有關、有的無關,思必馳也是摸索了這麼多年才能有今天的積累。
另外,科研方向是有前途的,但偏學術而非產業,或者說是長期方向,短期之內的產業回報不會特別大。
總之,現在的大模型廠商面臨著商業化應用場景選擇的挑戰,據我觀察,目前一種破局的方式是往國外「卷」,因為 API 付費這種模式在國外的機會可能大一些 。同時,很多應用場景其實很雞肋,對廠商來講有些「食之無味,棄之可惜」,這也是難點。
AI 科技評論:你們做硬件的話,像汽車、辦公本這些也都和端側結合很緊密,現在也有一些大模型廠商想去切端側,不過手機廠商也都在自己自研端側模型了。我剛也有聽您提到思必馳在做小模型,是指端側模型嗎?
俞凱:思必馳的模型雲側和端側都有,主要就是一些垂域模型。我認為未來端側模型一定是個重要方向,但還是要想清楚用它來幹什麼,有些廠商把文生圖都叫端側模型,這不是通用智能的角度。
通用智能是以端側語言模型為核心,同時要將任務鏈路有效整合,有些手機廠商走得比較靠前,但是是產品層面的靠前,基礎技術上還有很長的路要走,我們正在與合作夥伴積極推進這一領域的發展,可以期待一下。
AI 科技評論:聊了這麼多,那現在有沒有廠商和您的想法比較類似呢?你們的差異化優勢又體現在哪方面?
俞凱:思必馳的首要優勢肯定是技術優勢,在算法和系統結合上的優勢。經過這麼多次的技術迭代,在 know-how 也就是所謂的關鍵節點的技巧上,這些方面的積累我們也有優勢。
第二就是智能硬件,思必馳作為早期參與者之一,至今依然活躍在市場中,這樣的企業在國內並不多,可能只有兩三家。長時間的行業深耕使我們積累了寶貴的資源,成為我們的一大競爭優勢。極少有廠商像思必馳一樣覆蓋這麼多品類,在家電及消費電子領域,思必馳基於智能語音交互技術和芯片,實現對各種智能產品和設備的實時控制,接入各類硬件設備數億台,AI語音芯片出貨數千萬顆。此外,依託 DFM-2 大模型,思必馳推出了多款數字硬件產品,如無感擴聲馬克風、可感知和交互攝像頭、AI辦公本等,滿足了現代工作場景中的多樣化需求,大幅提升了辦公效率和質量。
另外,在客戶方面,思必馳經過多年的積累和服務,與國內幾乎所有的汽車和智能硬件廠商都有深入合作,這也形成了技術適配成熟度高、解決方案經驗豐富和客戶群基數大的優勢。