智譜AI COO 張帆：榨乾端側的每一分算力，做極致調優，讓AI在硬件上非常能打

駱軼航｜矽星人創始人&CEO張帆｜智譜COO

在矽星人AI創造者大會(ACC 2024)上，智譜AI COO張帆與矽星人創始人、CEO 駱軼航進行了一場圍繞智譜AI與智能終端的對話，以下為對話實錄：

駱軼航：上次在釘釘的panel上，我問了一些比較難回答的問題。

張帆：我已經出汗了。

駱軼航：還好，智譜給了我兩個觸動，過去，我是沿著GLM-3、GLM-4、GLM-plus、GLM-4-Voice的升級路徑理解智譜的，特別是在多模態方面的升級，讓我覺得智譜在 AGI （通用人工智能）的實現上有自己的路徑，也被很多人稱作是中國最像 OpenAI 的公司。然而，最近在高通驍龍峰會上，我看到智譜在端側模型上與高通達成的全方位合作，這是有區別於 OpenAI 的努力。第二點是，智譜在手機端實現了AI自主操作的功能，也就是AutoGLM。智譜的AutoGLM 有多少人知道？台下可以舉個手看看。

你看，將近一半。大家既然關注這個話題，那麼我有兩個問題。第一，你們什麼時候開始研發AutoGLM的？因為前兩天Anthropic的Claude Sonnet 3.5 剛剛發佈了用AI操作電腦的功能，離得這麼近，我顯然不能說你們是抄的。第二，AI操作終端設備，背後是在人的意志下操作終端設備，這為什麼成為美國和中國的明星AI公司競相探索的方向？

張帆：其實OpenAI也在探索這個方向。這兩個問題都很好。實際上，關於模型操作機器的探索，我們從去年便推出了開源模型，我們嘗試通過視覺理解界面來做，不過早期的自動化流程成本非常高。比如每花1元在RPA軟件上，需要額外投入3元的交付費用，而且自動化還不夠普及化，一個廣告彈出便可能導致流程中斷。去年，我們發佈了Agent，並在設備端持續優化，投入時間超過六個月。恰巧的是，我們和硬件廠商的合作發佈時間與Anthropic幾乎同步，這說明市場對這個方向的信心。

為什麼這個方向重要？今天的大模型智能從簡單應用向複雜應用不斷演進，尤其在 Agent 到 o1 推理模型的拓展中，使系統逐漸進化到能夠持續與外部交互。系統通過將複雜問題拆解為不同步驟，執行的智能增強，從而在特定場景中動態調節模型能力，通過不斷驗證和調整逐步達到目標。因此，外部連接的重要性日益凸顯。

同時連接的方式大致劃分清晰。首先是通過API連接到虛擬世界，例如ChatGPT的智能體平台和智譜的流程工具「智譜清流」，這些能力與外部系統對接已經實現。第二個階段是沒有API的系統，門檻會更低，API也不是那麼容易申請，更進一步的是與虛擬接口的交互，當前主要解決的是這個階段。下一個階段是與物理世界的連接，即具身智能的實現。

「端」是AI能力的下限，「雲」是上限，沒有單獨的端側

駱軼航：AutoGLM可能意味著大模型進入了一個新的階段。這是智譜CEO張鵬在中國計算機學演講的一張圖（大屏幕），就是AutoGLM所代表的AI的L3——也就是工具能力階段。看到這張圖時我非常欣慰，因為我們已經在多模態和自然語言交互方面實現了80%的效果，且在邏輯思維的維度上也達到60%，有了自我學習的功能，這讓Agent實現更加實際。我想知道，自然語言和多模態領域，你們提到的完成度80%，在端側也能不減價扣了嗎？

張帆：是的，可以在端側實現。

駱軼航：我們看到這次在高通驍龍峰會上的合作，圍繞著多模態，尤其在語音、多模態、邏輯推理能力的提升，你們與高通的合作是怎麼達成的？

張帆：如您所說，智譜是最早一波投入在端側上的公司。我們在去年便實現了端側模型，當時覺得還不夠 ready, 但是持續研究沒有斷，這次在驍龍峰會上，高通首先推薦了智譜模型，也有人來問，說高通很少直接推薦某一家模型，這是第一次。這得益於過去一年多我們與高通的持續溝通，合作涉及兩個維度：一是智譜的完整模型矩陣，包括文本、多模態、語音等，跟高通也很契合；二是設備端的契合，智譜也是最早在高通8295汽車芯片上運行模型的公司，差不多能做到100個token/秒的處理速度，此次與高通的聯合發佈，正是智譜過去一年多在端側領域持續投入的結果。我們在端側合作夥伴方面範圍還挺廣泛的，包括手機、汽車、平板PC、眼鏡，或者像NAS都有合作，我們非常看好端側在這上面的作用。

駱軼航：今天上午的嘉賓環節，至少有兩家是你們的客戶。

張帆：對。可能會更多。比如我們現在在手機裡面，絕大多數都有不同程度的合作。

駱軼航：智譜在泛化模型的能力，在端側上也會有小一點的模型是吧？

張帆：當然。

駱軼航：再結合手機廠商的需求來調整適配。

張帆：是的，他們會把最早設計的原則告知我們，我們提早做調優，為什麼比隨便做一個模型要快？是因為把新模型都用上了，這是雙方的結合。

駱軼航：跟高通的合作，意味著什麼？因為高通畢竟不直接生產手機，這個事情本身還是戰略意義更大，還是什麼具體的意義呢？

張帆：跟高通的合作意味著是端側模型的最佳實踐，得到了芯片廠商的認可。某種程度上，也是芯片與模型最優的調到極佳狀態的方案。包括和高通的合作也是，我們花了幾個月的時間優化每個節點。相當於給所有的設備廠商做了一個樣本，原來它可以劃一條基線去實現。高通選擇與我們頻繁合作，是因為我們去年開始便在應用端深入佈局，拓展了一些創新功能。儘管我們不會完整覆蓋所有應用，但會在最佳實踐的關鍵環節上提供支持。比如說AIGC我們自己就做了一個可運行的，跟OEM溝通的時候可以齊借鑒和參照。包括這次大會，那個demo影片是我們做的，它結合了很多場景，甚至有多端協同，車手互聯（指汽車與手機的連接）。比如這個人可以在手機上說我的帽子找不到了，幫我看一下帽子是不是落在車上了。那從高通角度，它有汽車芯片、手機芯片，就做到了最佳實踐。

駱軼航：很多人可能不知道智譜在手機和汽車廠商方面的合作情況，大模型上車是非常重要的一步。

張帆：智譜在端側投入巨大，很多高校背景的成員加入，我們保持務實的態度，但這些成果尚未廣泛傳播。

駱軼航：這件事應該讓大家知道，成果是非常具體的。你剛才提到AI「上車」，據我所知車上至少跟小鵬有合作，車手互聯等等，我們在PC、汽車、眼鏡、手機不同的終端，模型適配要做的工作有哪些不一樣的地方？

張帆：我理解為這是一個框架，只是在不同的設備上去適應這個設備自己的場景和環境。我們從來不會把端側單獨看，我認為端雲結合非常重要，雲解決的是上限，端解決的是下限。端的下限是保證高可用性，沒有網絡也可運行，第二點，隱私更受保護，不想上傳的東西不傳，第三點，就是成本，特別是手機這樣的設備，裝機量太多了，很難有人承擔這個成本，這個結合就變得很重要。與此同時，我們當然希望端的下限越來越高，雲的上限也越來越高。我們把端和雲的互動做成一套完整方案，這就要求首先一點，這兩個模型最好是同源的，對於 prompt 理解是唯一的，第二點，這裡面還有一系列的中間件，什麼情況下訪問雲，什麼情況下訪問端，是不是有統一的自我認知，是不是有統一的上下文、有記憶力，我們都有標準方案，我們提供一套開箱即用的方案。比如眼鏡，端的算力弱就直接走雲；比如汽車，端的算力強一點就一邊一半，手機佔的比例更高，只是一個框架不同的應用。

有能力交付端側模型的競爭對手越來越少了

駱軼航：這麼說，智譜的合作策略似乎是提供標準化框架，讓廠商自主配置，而不是具體到某一個場景中做交付和定製。我看智譜還是要跟手機廠商做適配的，但是又不想把這些東西賣的特別「碎」。

張帆：我們還是交付了很多東西的，一點不做還是很難落地的，我們會有輕量的交付，幫助企業建立自己的組織。我們儘可能把標準化做的核心，我們使命還是到達AGI。我們試圖把問題串起來，變的部分儘量交給夥伴完成，我們解決的是行業下限，我們上面有工具，讓每家做不一樣的部分。

駱軼航：模型上限合作夥伴自己拔高，智譜來提供一個非常強大的基礎模型。

張帆：沒錯，至少是80分可以搞掂了。我們本質是希望榨乾每一分算力，我們跟芯片做極致的調優，另外我們在模型上也做調優，我們嘗試把端側任務做微調，調到非常能打。比如幾十億參數的模型能夠達到1000多億參數的效果，所以兩端都要調到極致。作為一個企業的下限，這樣更加推動AGI快速到來。

駱軼航：這裡面又有一個問題，我一直覺得有一個糾結，手機廠商、PC廠商和汽車廠商都是智譜的客戶。這些企業尤其是中國企業，大家都是很有野心，大家總是有一種衝動，自己能夠幹上遊的活了，比如小鵬飛行汽車跟特斯拉在很多地方相比，我認為他們對特斯拉還是有一定的理解和嚮往的，那他怎麼會不想向馬斯克做xAI那樣，做一個自己的大模型？PC廠商和手機廠商難道不想麼？他們又是我們非常重要的合作夥伴，那我們怎麼去平衡這裡面的關係？

張帆：有兩個維度，第一個維度，我們做到下限，留了他們做上限的空間，他們不用從頭去做，我們給他留了空間，這是有自己的差異。第二，他一定要自研，只是找到ROI最高的自研，我們幫他把ROI比較低的自研解決了。其實今年情況明年比去年好，去年才有「百模大戰」，今年大家幾乎聽不到百模大戰了。反過來看海外，蘋果自己沒做模型，微軟還是投了100億給 OpenAI，沒有自己去做模型，包括三星也是。我其實覺得這些公司不是沒能力做，而是他們評估下來之後，無論從戰略上還是經濟上的選擇來看，還是跟外部合作更合適一些。

駱軼航：今年手機廠商都願意公開承認，自己的模型是跟頭部大模型一起搞的了。

張帆：我們前兩年還跟榮耀發佈了聯合實驗室，在裡面做前沿探索和研究，這個在去年看起來比較難，今年看起來就很合適。本質是兩個邏輯，第一個是，大家今天特別卷的行業，越來越看ROI，他把60分的資源做到80到90分去，成熟市場開始變得越來越成熟，我們把基礎能力做得足夠強，另外我們又要給企業留出創意和差異化的空間，這樣的框架就做到好的平衡。

駱軼航：等於給它留出空間，讓它自己的創造力和靈活性能夠發揮，同時他們自己也變得更接地氣、更務實。我們也會跟不同企業探索不同的方向，甚至共享知識產權。這個行業出現了比較積極的變化，訂單逐漸收斂到幾個有能力交付的大模型身上。

張帆：今天大模型也在收攏，包括在市場上，感覺競爭對手的數量明顯在變少，而集中在幾個頭部上了，這是一個好的狀態，大家的戰略還是有差異化的，不必在同一個事情上低效的創造，而是可以有不同領域的創造反而是更好的。

AI Agent 的能力只能通過雲實現，在端側是不現實的

駱軼航：最後我們聊兩個事情，聊聊智譜對AI Agent的看法，尤其 AI Agent在端側怎麼實現？

張帆：坦率地說，今天市場上對Agent的定義是非常混亂的，幾乎萬物皆Agent，我們需要重新釐清這個概念。在智譜的理解中，Agent的本質上是讓大模型成為獨立的智能體，能夠在特定領域內自動規劃、執行任務，並與外部環境交互和反思。這裏有兩個維度，第一個維度是「腦」，即大腦的決策、規劃和預測部分；第二塊，是執行動作，跟外部的連接。「腦」的部分有兩個分類，第一個是以動作為節點的流程編排；第二個是以任務為節點的流程編排，這裡面我覺得以動作為節點的都不應該叫Agent。

我們有很多動作流程工具，比如查個機票，我建立一個節點，從哪出發到哪去，這是以動作為結點。某種程度不叫Agent，叫低代碼。為什麼？首先假設用戶是按照套路出牌的，是不需要推理的，但是用戶一旦不按照套路出牌，我先說去上海它就蒙了，因為節點不同，這件事怎麼解決呢？就得畫成蜘蛛網，所有東西都要兩兩相連，形成一個蜘蛛網，一旦兩兩相連是走不通的，至少95%以上不是真正的Agent，真正的Agent是以任務為節點。你是我的機票預定員，我會告訴你出發時間，出發城市，你需要知道我的出發城市、目的城市以及人數，再給你一個攜程，你幫我訂票，這是在一個節點里，意味著它能動態調整節點單元的問題。它是以任務為單元，以完成機票預定為目的，比如我去上海，他問你從哪出發，我說我不去上海改成深圳，就可以自動調整，這是非常靈活的。目前來講端側不現實，一定是在雲側的，這才是真正的Agent，它能解決複雜問題。

第二個節點是動作上，這個Agent不能光思考，還得跟外界連接。這是我們一些編排工具，智譜清流沒有對外發，我們內部做了大量智能體。我們在合作夥伴中試用，會讓我們自己開發應用成本降低幾倍。一個是腦，一個是手，這兩塊智譜都在做改進。這兩個跟端雲沒關係，今天腦做複雜任務比雲側更好，對於智能要求高，而‘手’的操作也不一定只局限於端側，例如通過API訪問和瀏覽網頁實際上依賴雲端。在虛擬設備（如手機、PC）上的操作，甚至未來在具身智能中的應用，都可能涉及與物理世界的深度連接。這種跨端、跨雲、跨物理的協作正是我們對智能體框架的理解。跟剛才的邏輯一樣，在不同的設備上，根據不同的算力和要求，做不同的裁切和組合，以適應在設備上達到最優效果，這就是為什麼要做個標準。

駱軼航：智譜的技術未來是在雲上，智譜的商業落地是在端上，這麼說對嗎？

張帆：我覺得也不能這麼說，它不太好說，如果來定義智譜，智譜的未來還是在AGI，包括這張圖全部都是以AGI為目標做的步驟拆解，目前按照這個狀態在持續發展。端只是一種媒介一種載體。

駱軼航：好，感謝張帆的分享。