科技

思必馳俞凱：分佈式大模型智能體系統是 AGI 時代一道別樣的風景

12月18日 15:42 新浪網 tech-auto-hilite

生成式智能與任務執行智能，是兩種路線目標。

作者丨朱可軒

編輯丨陳彩嫻

曆時兩天（12.10-12.11），今年的 2024 全球人工智能產品應用博覽會已在蘇州工業園區完美閉幕。

在第一天下午的大會主論壇中，思必馳聯合創始人、首席科學家俞凱以「邁向分佈式大模型智能體系統」為主題，深入探討了思必馳在大模型技術路線上的獨到思考，以及其對行業的觀察和見解。

「分佈式大模型智能體系統」是思必馳在深耕對話式人工智能領域十七年後探索出的新發展方向，即：1 個中樞大模型+ N 個垂域模型及全鏈路交互組件組成全功能系統。

當前，國內許多大模型廠商都跟隨 OpenAI 的技術方向，將超級智能作為發力重點。

但俞凱認為，「OpenAI 這一類廠商以單一的、集中式的超級智能為目標去建設大模型，某種意義上是在造一個全知全能的神，在引領技術前沿上有劃時代的重要作用；但在 2B 真實場景落地中，這個技術路線遇到了很多的問題，包括實時私域知識缺乏、專業領域能力欠缺、可靠執行能力不足和系統協作架構缺失等。」

區別於此，思必馳選擇的技術路徑類似於打造一個公司，從 CEO 到 CFO 、CTO 等都各司其職。其中，CEO 是中樞大模型，CFO 、CTO 等是垂域大/小模型，在這之中並不需要每一個大模型都是超級智能，它們是分佈式的，核心的系統目標主要是可靠的任務執行。

現階段生成式大模型都面臨難解的「幻覺」問題，AI 還無法知曉自身的知識邊界何在，而俞凱反復強調的可靠的執行智能所解決的問題便恰好在於此。

除此之外，俞凱還向 AI 科技評論介紹道，「智能體系統和大模型不一樣，大模型或單一智能體現在只強調一個功能模塊的輸入和輸出，最終的用戶體驗不一定好。而「智能體系統」則考慮多個不同的全鏈路功能模塊組合，強調能組成有機整體，從整個系統層面給用戶的交互體驗會更好。」

不過，這些對行業的洞察也是在不斷摸索試錯後，俞凱和團隊才逐步明晰的。成立以來，思必馳在找準自身定位的過程中也遇到過諸多技術難題：

從剛開始只想去提升識別率，到後來開始思考降低成本，再之後又面臨了軟件易複製、智能硬件沒做過的難題，而全鏈路智能語音交互系統、大規模可定製也都存在著諸多需要攻關的技術難點……

以下是 AI 科技評論與俞凱的訪談實錄，作者進行了不改原意的編輯整理：

構建分佈式大模型智能體系統

AI 科技評論：可以簡單介紹一下你們的大模型技術路線嗎？

俞凱：我們一直把 ChatGPT 類的大模型叫做對話式人工智能、對話式語言計算。OpenAI 實際上是從預訓練語言模型發展起來的，而思必馳是從一個完整的端到端對話系統發展起來的，一直以多輪交互為核心，不斷迭代出現在的大語言模型。所以雖然殊途同歸，但實際上我們有自己獨特的發展軌跡。

思必馳 DFM 語言大模型是自主的技術研發路線逐漸形成的語言大模型。長期持續開展對話式語言大模型自研的其實不多，可能 2023 年之後講得比較多， 2023 年之前很少，DFM 是 2022 年初正式對外發佈的，而發佈之前內部就已經在用了，是真正意義上的獨立研發。

AI 科技評論：你們和 OpenAI 技術路徑的區別具體體現在何處？

俞凱：OpenAI 這一類廠商是以超級智能為目標去建設單一集中式語言大模型，某種意義上是在造一個全知全能的神，它擅長創作和回答問題，並且可以生成多樣性的回覆。但這條技術路線在面向嚴肅的任務執行場景時遇到了許多問題，包括實時私域知識缺乏、專業領域能力欠缺、可靠執行能力不足和系統協作架構缺失等。

與之對比，我們的技術路線是構建 1+N 的分佈式大模型智能體系統，這個「1」是中樞大模型，相當於大腦，「N」就是不同的垂域模型，大模型、小模型都有，它們都可以是智能體，然後又是分佈式的。

這種模式類似於公司的組織架構，其中，CEO 是中樞大模型，CFO 、CTO 等是垂域大/小模型，從 CEO 到 CFO 、CTO 等都各司其職，在這之中並不需要每一個大模型都是超級智能，甚至所有的都不是超級智能體，這是思必馳跟 OpenAI 在技術路線上很關鍵的不同。

根據我們以往的產業實踐，在實際大多數業務場景中，能夠可靠地執行任務是最重要的，這類場景中的大模型本身不需要超級大，沒有必要不計成本的去堆算力，而是需要許多平常的通用智能體，這些通用智能體具備和人進行交互的能力，當然通用智能體之間也可以互相交互。

AI 科技評論：所以你們的優勢在於可靠的任務執行。

俞凱：對。現在國內外比較火的一些大模型很多是以內容創作生成為核心，但思必馳主要關注的是以工具使用能力為主的執行智能。

二者的側重點不同，生成式強調的是創造性、多樣性、流利性，本質是豐富；執行強調的是不出錯、可靠。現在大模型有各種各樣的「幻覺」，思必馳 1+N 的體系會對執行任務的質量進行保障，乃至於用一些創新的技術思路重新去定義可靠性。

舉個例子，我問 10 個問題，你能答對 6 個，其餘 4 個你不知道，但是也胡亂作答了；他能答對 5 個，其餘 5 個他說不知道，要去問專家。這種情況下，他可能更可靠。一些大模型其實不清楚自己的知識邊界在哪，不懂得拒絕。

思必馳在車載系統里著重強調的拒識能力，就是「我不是在跟你說話，你不要回答我」。總的來講，思必馳的立足點就是可靠執行。其實，思必馳的大模型也可以用來寫小作文、詩歌等，在現階段，這些不是我們的核心出發點。

AI 科技評論：為什麼你們今年一直在強調智能體系統這個概念？

俞凱：加了「系統」兩個字之後，與大模型就不一樣了。大模型現在講的基本都是語言大模型，即使是一般意義的多模態大模型往往講的也是一個軟件、一個算法、一個程序，你有一個輸入，它（模型）有一個輸出。但如若只強調輸入、輸出文字，最終的用戶體驗不一定好。

我們強調的「系統」是要考慮多個不同的全鏈路系統組合，不單單只是智能體，有的可能包括模型，非模型的還有軟硬件協同的問題，大模型實際上是「人的大腦」，除此之外還要讓它有嘴巴、眼睛、耳朵等，這些要與大腦緊密結合，組成一個有機整體，給用戶的交互體驗會更好，這一點很重要。

舉個例子，我說一句話，如果大模型一秒鍾之後才反應，那就很慢了，怎麼在零點幾秒作出反應，還要滿足高度可靠的快速定製需求，這就要在系統層面去實現。

做這套體系時，思必馳用分佈式的方法將參數規模千億、百億、十億等全尺度的大模型結合在一起，形成具備工具智能的可靠系統，這樣才能實現更高的可靠性與產業落地。

投身 AI 創業，貴在長期堅持

AI 科技評論：思必馳成立於 2007 年，創業十七年了，您的這些技術思想是一開始就這麼堅定嗎？

俞凱：堅持是一件特別不容易的事，尤其對於處於萌芽時期的事物。我們剛開始做人工智能時，這個領域還沒有像現在這樣倍受重視，我們當時給公司起名叫「AISPEECH」，就是決心要把這件事做好，現在國家商標局已經不允許把 AI 放在前頭了。（笑）

AI 科技評論：可以分享一下對於您來講，你們經歷了哪些關鍵性的轉折點嗎？

俞凱：我在英國待了十年，在劍橋的時候，前五年做語音識別，後五年做對話系統，2012 年我回到國內，思必馳正式開啟了對話式人工智能的篇章。與此同時，我也把數據驅動的對話式語言計算從國外引到了國內，那個時候還不是現在的深度學習，而是早期的貝葉斯學習。那時開始做對話式人工智能，也就是現在大家所看到的語言計算的基礎平台。

在 2014 年 10 月的 CES 電子展上， Amazon 的 Echo 一炮打響，人工智能的硬件載體由手機轉換到智能硬件，思必馳開始從「軟件交互」轉向「智能硬件交互」。這個方向技術難度更大，並且一定程度上區別於僅在雲端去做一般意義的語義處理，實際上，單一功能的雲端 API 調用也很容易被複製。

2017 年，思必馳又有比較大的變化。當時，我們發現軟硬件結合的方向非常好，中國的物聯網硬件設備千奇百怪，需要各種各樣的定製，我們開始研發一系列技術，專注 AI 領域的柔性製造，即把對話系統的模塊任意組合，提升在垂域上的性能，快速進行個性化修改，這是大規模、可定製的對話系統，也就是思必馳 DUI 開放平台（Dialogue User Interface）。

AI 科技評論：你們真正開始切入大模型具體是在什麼時候呢？

俞凱：2019 年。縱觀公司的發展歷程，思必馳於 2013 年研發出對話工場實現全鏈路閉環；2015 年 AIOS 系統實現軟硬件協同的雲端一體，至此對話系統正式開始面向智能硬件；2017 年通過全鏈路智能對話定製平台（即 DUI 平台）實現大規模可定製的柔性人工智能；2019 年有了通用對話式語言模型研發。

此後，思必馳語言大模型 DFM 進入深度研發階段，2021 年發佈了第一個版本。2023 年 7 月，思必馳 DFM-2 大模型發佈，通過 DFM-2 實現通用人工智能的柔性定製，可以開展大規模、高質量、個性化的人工智能系統定製，既滿足客戶個性化的需求，又可以大大提升軟硬件產品的「非標交付」效率。現在思必馳在這個基礎上進一步研發分佈式大模型智能體系統。

AI 科技評論：這麼多次轉變的背後，你們應該遇到過不少困難，都是怎麼解決的？

俞凱：當然。全鏈路的智能對話系統是思必馳的一大優勢，它的構建是第一個難題。

早先我們做語音識別技術，並在美國的比賽中取得了國際領先的成績，但這並不意味著僅憑此項技術就能賺錢了，當時碰到的困難是，就算技術再強也有誤差，沒聽說有誰的識別準確率是 100%。因此，當用戶無法完成任務時，思必馳就必須提供完整的方案，單純的算法優化並不能解決實際問題，必須將其整合到一個完整的對話系統中。

後來遇到的問題是軟件產品容易被複製，思必馳在技術上比較強，也需要把技術轉化成有效性、成本等優勢，雖然軟件也能形成系統，但是偏工具型，所以不能純靠軟件，思必馳要從智能硬件角度切入。

面向智能硬件也遇到了困難，在這個過程中要把沒有學過的知識，通過學習轉化成自己的東西，然後落地實踐。硬件要做嵌入式，就得把它做小，做到芯片里……這些都是需要解決的技術難點。

再往後，思必馳要做大規模定製化，於是我們就開始就拆，對話系統拆了要能再接起來，接起來的時候還要能保障端到端的響應速度是業界領先，思必馳是業界最早把端到端的響應速度做到 1 秒以內的，後來有些人跟進了。這需要從真實的場景當中提煉問題，並通過算法、工程手段和系統架構設計來解決。

警惕「拿著錘子找釘子」

AI 科技評論：DFM-2 大模型是去年 7 月升級的最新版，今年有進行技術迭代嗎？

俞凱：今年我們進行了很多迭代，都已經融合到產品中了，簡單說就是悶頭把事給幹了，沿著之前做的事往上疊加大模型能力。

AI 科技評論：你們目前主要在哪些場景中落地呢？

俞凱：主要是兩個方面，一是推垂域模型，二是推到產品里。

今年比較大的落地場景是智能汽車，除此之外有智能家居、消費電子等，還有政府機構、智能製造、科研等一些場景。

AI 科技評論：現在其實市面上許多大模型廠商都沒辦法找到真正的落地場景，所以可以看到最近大模型又有些冷下來了。您覺得這是現階段大家最大的困境嗎？

俞凱：是的，現在大模型廠商面臨的最大挑戰就是商業化落地場景。實際上我們做大模型，是先有端到端對話式系統的應用，然後疊加大模型，先有場景，大模型是嵌入到系統里的。很多大模型廠商現在是拿著「錘子」找「釘子」，而我們有一排「釘子」，用不用這一個「錘子」不一定，因為可能還有另外其他的「錘子」更適合。

現在許多 2C 場景都被互聯網廠商壟斷了，例如：以多樣化文字生成、多模態生成為主的大模型最大的應用場景是內容創作，被抖音、快手等平台壟斷；人機交互知識問答這種偏知識檢索場景被搜索引擎廠商壟斷；純問答場景被電商壟斷；還有其他小的場景，但是沒辦法撐起動輒幾十個億的投入。如何突圍是技術型大模型廠商面臨的巨大挑戰。

如果往 2B 和智能硬件領域發力，就需要系統。這當中，系統和完整的解決方案是否可靠，是不是可以定製化、規模化是核心問題，這是很多純算法廠商不擅長的。要積累的話往往也需要很長時間，因為這些核心問題同技術的先進程度有的有關、有的無關，思必馳也是摸索了這麼多年才能有今天的積累。

另外，科研方向是有前途的，但偏學術而非產業，或者說是長期方向，短期之內的產業回報不會特別大。

總之，現在的大模型廠商面臨著商業化應用場景選擇的挑戰，據我觀察，目前一種破局的方式是往國外「卷」，因為 API 付費這種模式在國外的機會可能大一些。同時，很多應用場景其實很雞肋，對廠商來講有些「食之無味，棄之可惜」，這也是難點。

AI 科技評論：你們做硬件的話，像汽車、辦公本這些也都和端側結合很緊密，現在也有一些大模型廠商想去切端側，不過手機廠商也都在自己自研端側模型了。我剛也有聽您提到思必馳在做小模型，是指端側模型嗎？

俞凱：思必馳的模型雲側和端側都有，主要就是一些垂域模型。我認為未來端側模型一定是個重要方向，但還是要想清楚用它來幹什麼，有些廠商把文生圖都叫端側模型，這不是通用智能的角度。

通用智能是以端側語言模型為核心，同時要將任務鏈路有效整合，有些手機廠商走得比較靠前，但是是產品層面的靠前，基礎技術上還有很長的路要走，我們正在與合作夥伴積極推進這一領域的發展，可以期待一下。

AI 科技評論：聊了這麼多，那現在有沒有廠商和您的想法比較類似呢？你們的差異化優勢又體現在哪方面？

俞凱：思必馳的首要優勢肯定是技術優勢，在算法和系統結合上的優勢。經過這麼多次的技術迭代，在 know-how 也就是所謂的關鍵節點的技巧上，這些方面的積累我們也有優勢。

第二就是智能硬件，思必馳作為早期參與者之一，至今依然活躍在市場中，這樣的企業在國內並不多，可能只有兩三家。長時間的行業深耕使我們積累了寶貴的資源，成為我們的一大競爭優勢。極少有廠商像思必馳一樣覆蓋這麼多品類，在家電及消費電子領域，思必馳基於智能語音交互技術和芯片，實現對各種智能產品和設備的實時控制，接入各類硬件設備數億台，AI語音芯片出貨數千萬顆。此外，依託 DFM-2 大模型，思必馳推出了多款數字硬件產品，如無感擴聲馬克風、可感知和交互攝像頭、AI辦公本等，滿足了現代工作場景中的多樣化需求，大幅提升了辦公效率和質量。

另外，在客戶方面，思必馳經過多年的積累和服務，與國內幾乎所有的汽車和智能硬件廠商都有深入合作，這也形成了技術適配成熟度高、解決方案經驗豐富和客戶群基數大的優勢。