智譜AI COO 張帆:榨乾端側的每一分算力,做極致調優,讓AI在硬件上非常能打

駱軼航|矽星人創始人&CEO張帆|智譜COO駱軼航|矽星人創始人&CEO張帆|智譜COO

在矽星人AI創造者大會(ACC 2024)上,智譜AI COO張帆與矽星人創始人、CEO 駱軼航進行了一場圍繞智譜AI與智能終端的對話,以下為對話實錄:

駱軼航:上次在釘釘的panel上,我問了一些比較難回答的問題。

張帆:我已經出汗了。

駱軼航:還好,智譜給了我兩個觸動,過去,我是沿著GLM-3、GLM-4、GLM-plus、GLM-4-Voice的升級路徑理解智譜的,特別是在多模態方面的升級,讓我覺得智譜在 AGI (通用人工智能)的實現上有自己的路徑,也被很多人稱作是中國最像 OpenAI 的公司。然而,最近在高通驍龍峰會上,我看到智譜在端側模型上與高通達成的全方位合作,這是有區別於 OpenAI 的努力。第二點是,智譜在手機端實現了AI自主操作的功能,也就是AutoGLM。智譜的AutoGLM 有多少人知道?台下可以舉個手看看。

你看,將近一半。大家既然關注這個話題,那麼我有兩個問題。第一,你們什麼時候開始研發AutoGLM的?因為前兩天Anthropic的Claude Sonnet 3.5 剛剛發佈了用AI操作電腦的功能,離得這麼近,我顯然不能說你們是抄的。第二,AI操作終端設備,背後是在人的意志下操作終端設備,這為什麼成為美國和中國的明星AI公司競相探索的方向?

張帆:其實OpenAI也在探索這個方向。這兩個問題都很好。實際上,關於模型操作機器的探索,我們從去年便推出了開源模型,我們嘗試通過視覺理解界面來做,不過早期的自動化流程成本非常高。比如每花1元在RPA軟件上,需要額外投入3元的交付費用,而且自動化還不夠普及化,一個廣告彈出便可能導致流程中斷。去年,我們發佈了Agent,並在設備端持續優化,投入時間超過六個月。恰巧的是,我們和硬件廠商的合作發佈時間與Anthropic幾乎同步,這說明市場對這個方向的信心。

為什麼這個方向重要?今天的大模型智能從簡單應用向複雜應用不斷演進,尤其在 Agent 到 o1 推理模型的拓展中,使系統逐漸進化到能夠持續與外部交互。系統通過將複雜問題拆解為不同步驟,執行的智能增強,從而在特定場景中動態調節模型能力,通過不斷驗證和調整逐步達到目標。因此,外部連接的重要性日益凸顯。

同時連接的方式大致劃分清晰。首先是通過API連接到虛擬世界,例如ChatGPT的智能體平台和智譜的流程工具「智譜清流」,這些能力與外部系統對接已經實現。第二個階段是沒有API的系統,門檻會更低,API也不是那麼容易申請,更進一步的是與虛擬接口的交互,當前主要解決的是這個階段。下一個階段是與物理世界的連接,即具身智能的實現。

「端」是AI能力的下限,「雲」是上限,沒有單獨的端側

駱軼航:AutoGLM可能意味著大模型進入了一個新的階段。這是智譜CEO張鵬在中國計算機學演講的一張圖(大屏幕),就是AutoGLM所代表的AI的L3——也就是工具能力階段。看到這張圖時我非常欣慰,因為我們已經在多模態和自然語言交互方面實現了80%的效果,且在邏輯思維的維度上也達到60%,有了自我學習的功能,這讓Agent實現更加實際。我想知道,自然語言和多模態領域,你們提到的完成度80%,在端側也能不減價扣了嗎?

張帆:是的,可以在端側實現。

駱軼航:我們看到這次在高通驍龍峰會上的合作,圍繞著多模態,尤其在語音、多模態、邏輯推理能力的提升,你們與高通的合作是怎麼達成的?

張帆:如您所說,智譜是最早一波投入在端側上的公司。我們在去年便實現了端側模型,當時覺得還不夠 ready, 但是持續研究沒有斷,這次在驍龍峰會上,高通首先推薦了智譜模型,也有人來問,說高通很少直接推薦某一家模型,這是第一次。這得益於過去一年多我們與高通的持續溝通,合作涉及兩個維度:一是智譜的完整模型矩陣,包括文本、多模態、語音等,跟高通也很契合;二是設備端的契合,智譜也是最早在高通8295汽車芯片上運行模型的公司,差不多能做到100個token/秒的處理速度,此次與高通的聯合發佈,正是智譜過去一年多在端側領域持續投入的結果。我們在端側合作夥伴方面範圍還挺廣泛的,包括手機、汽車、平板PC、眼鏡,或者像NAS都有合作,我們非常看好端側在這上面的作用。

駱軼航:今天上午的嘉賓環節,至少有兩家是你們的客戶。

張帆對。可能會更多。比如我們現在在手機裡面,絕大多數都有不同程度的合作。

駱軼航:智譜在泛化模型的能力,在端側上也會有小一點的模型是吧?

張帆當然。

駱軼航再結合手機廠商的需求來調整適配。

張帆:是的,他們會把最早設計的原則告知我們,我們提早做調優,為什麼比隨便做一個模型要快?是因為把新模型都用上了,這是雙方的結合。

駱軼航跟高通的合作,意味著什麼?因為高通畢竟不直接生產手機,這個事情本身還是戰略意義更大,還是什麼具體的意義呢?

張帆:跟高通的合作意味著是端側模型的最佳實踐,得到了芯片廠商的認可。某種程度上,也是芯片與模型最優的調到極佳狀態的方案。包括和高通的合作也是,我們花了幾個月的時間優化每個節點。相當於給所有的設備廠商做了一個樣本,原來它可以劃一條基線去實現。高通選擇與我們頻繁合作,是因為我們去年開始便在應用端深入佈局,拓展了一些創新功能。儘管我們不會完整覆蓋所有應用,但會在最佳實踐的關鍵環節上提供支持。比如說AIGC我們自己就做了一個可運行的,跟OEM溝通的時候可以齊借鑒和參照。包括這次大會,那個demo影片是我們做的,它結合了很多場景,甚至有多端協同,車手互聯(指汽車與手機的連接)。比如這個人可以在手機上說我的帽子找不到了,幫我看一下帽子是不是落在車上了。那從高通角度,它有汽車芯片、手機芯片,就做到了最佳實踐。

駱軼航:很多人可能不知道智譜在手機和汽車廠商方面的合作情況,大模型上車是非常重要的一步。

張帆:智譜在端側投入巨大,很多高校背景的成員加入,我們保持務實的態度,但這些成果尚未廣泛傳播。

駱軼航這件事應該讓大家知道,成果是非常具體的。你剛才提到AI「上車」,據我所知車上至少跟小鵬有合作,車手互聯等等,我們在PC、汽車、眼鏡、手機不同的終端,模型適配要做的工作有哪些不一樣的地方?

張帆:我理解為這是一個框架,只是在不同的設備上去適應這個設備自己的場景和環境。我們從來不會把端側單獨看,我認為端雲結合非常重要,雲解決的是上限,端解決的是下限。端的下限是保證高可用性,沒有網絡也可運行,第二點,隱私更受保護,不想上傳的東西不傳,第三點,就是成本,特別是手機這樣的設備,裝機量太多了,很難有人承擔這個成本,這個結合就變得很重要。與此同時,我們當然希望端的下限越來越高,雲的上限也越來越高。我們把端和雲的互動做成一套完整方案,這就要求首先一點,這兩個模型最好是同源的,對於 prompt 理解是唯一的,第二點,這裡面還有一系列的中間件,什麼情況下訪問雲,什麼情況下訪問端,是不是有統一的自我認知,是不是有統一的上下文、有記憶力,我們都有標準方案,我們提供一套開箱即用的方案。比如眼鏡,端的算力弱就直接走雲;比如汽車,端的算力強一點就一邊一半,手機佔的比例更高,只是一個框架不同的應用。

有能力交付端側模型的競爭對手越來越少了

駱軼航:這麼說,智譜的合作策略似乎是提供標準化框架,讓廠商自主配置,而不是具體到某一個場景中做交付和定製。我看智譜還是要跟手機廠商做適配的,但是又不想把這些東西賣的特別「碎」。

張帆:我們還是交付了很多東西的,一點不做還是很難落地的,我們會有輕量的交付,幫助企業建立自己的組織。我們儘可能把標準化做的核心,我們使命還是到達AGI。我們試圖把問題串起來,變的部分儘量交給夥伴完成,我們解決的是行業下限,我們上面有工具,讓每家做不一樣的部分。

駱軼航:模型上限合作夥伴自己拔高,智譜來提供一個非常強大的基礎模型。

張帆沒錯,至少是80分可以搞掂了。我們本質是希望榨乾每一分算力,我們跟芯片做極致的調優,另外我們在模型上也做調優,我們嘗試把端側任務做微調,調到非常能打。比如幾十億參數的模型能夠達到1000多億參數的效果,所以兩端都要調到極致。作為一個企業的下限,這樣更加推動AGI快速到來。

駱軼航:這裡面又有一個問題,我一直覺得有一個糾結,手機廠商、PC廠商和汽車廠商都是智譜的客戶。這些企業尤其是中國企業,大家都是很有野心,大家總是有一種衝動,自己能夠幹上遊的活了,比如小鵬飛行汽車跟特斯拉在很多地方相比,我認為他們對特斯拉還是有一定的理解和嚮往的,那他怎麼會不想向馬斯克做xAI那樣,做一個自己的大模型?PC廠商和手機廠商難道不想麼?他們又是我們非常重要的合作夥伴,那我們怎麼去平衡這裡面的關係?

張帆有兩個維度,第一個維度,我們做到下限,留了他們做上限的空間,他們不用從頭去做,我們給他留了空間,這是有自己的差異。第二,他一定要自研,只是找到ROI最高的自研,我們幫他把ROI比較低的自研解決了。其實今年情況明年比去年好,去年才有「百模大戰」,今年大家幾乎聽不到百模大戰了。反過來看海外,蘋果自己沒做模型,微軟還是投了100億給 OpenAI,沒有自己去做模型,包括三星也是。我其實覺得這些公司不是沒能力做,而是他們評估下來之後,無論從戰略上還是經濟上的選擇來看,還是跟外部合作更合適一些。

駱軼航:今年手機廠商都願意公開承認,自己的模型是跟頭部大模型一起搞的了。

張帆我們前兩年還跟榮耀發佈了聯合實驗室,在裡面做前沿探索和研究,這個在去年看起來比較難,今年看起來就很合適。本質是兩個邏輯,第一個是,大家今天特別卷的行業,越來越看ROI,他把60分的資源做到80到90分去,成熟市場開始變得越來越成熟,我們把基礎能力做得足夠強,另外我們又要給企業留出創意和差異化的空間,這樣的框架就做到好的平衡。

駱軼航等於給它留出空間,讓它自己的創造力和靈活性能夠發揮,同時他們自己也變得更接地氣、更務實。我們也會跟不同企業探索不同的方向,甚至共享知識產權。這個行業出現了比較積極的變化,訂單逐漸收斂到幾個有能力交付的大模型身上。

張帆今天大模型也在收攏,包括在市場上,感覺競爭對手的數量明顯在變少,而集中在幾個頭部上了,這是一個好的狀態,大家的戰略還是有差異化的,不必在同一個事情上低效的創造,而是可以有不同領域的創造反而是更好的。

AI Agent 的能力只能通過雲實現,在端側是不現實的

駱軼航最後我們聊兩個事情,聊聊智譜對AI Agent的看法,尤其 AI Agent在端側怎麼實現?

張帆:坦率地說,今天市場上對Agent的定義是非常混亂的,幾乎萬物皆Agent,我們需要重新釐清這個概念。在智譜的理解中,Agent的本質上是讓大模型成為獨立的智能體,能夠在特定領域內自動規劃、執行任務,並與外部環境交互和反思。這裏有兩個維度,第一個維度是「腦」,即大腦的決策、規劃和預測部分;第二塊,是執行動作,跟外部的連接。「腦」的部分有兩個分類,第一個是以動作為節點的流程編排;第二個是以任務為節點的流程編排,這裡面我覺得以動作為節點的都不應該叫Agent。

我們有很多動作流程工具,比如查個機票,我建立一個節點,從哪出發到哪去,這是以動作為結點。某種程度不叫Agent,叫低代碼。為什麼?首先假設用戶是按照套路出牌的,是不需要推理的,但是用戶一旦不按照套路出牌,我先說去上海它就蒙了,因為節點不同,這件事怎麼解決呢?就得畫成蜘蛛網,所有東西都要兩兩相連,形成一個蜘蛛網,一旦兩兩相連是走不通的,至少95%以上不是真正的Agent,真正的Agent是以任務為節點。你是我的機票預定員,我會告訴你出發時間,出發城市,你需要知道我的出發城市、目的城市以及人數,再給你一個攜程,你幫我訂票,這是在一個節點里,意味著它能動態調整節點單元的問題。它是以任務為單元,以完成機票預定為目的,比如我去上海,他問你從哪出發,我說我不去上海改成深圳,就可以自動調整,這是非常靈活的。目前來講端側不現實,一定是在雲側的,這才是真正的Agent,它能解決複雜問題。

第二個節點是動作上,這個Agent不能光思考,還得跟外界連接。這是我們一些編排工具,智譜清流沒有對外發,我們內部做了大量智能體。我們在合作夥伴中試用,會讓我們自己開發應用成本降低幾倍。一個是腦,一個是手,這兩塊智譜都在做改進。這兩個跟端雲沒關係,今天腦做複雜任務比雲側更好,對於智能要求高,而‘手’的操作也不一定只局限於端側,例如通過API訪問和瀏覽網頁實際上依賴雲端。在虛擬設備(如手機、PC)上的操作,甚至未來在具身智能中的應用,都可能涉及與物理世界的深度連接。這種跨端、跨雲、跨物理的協作正是我們對智能體框架的理解。跟剛才的邏輯一樣,在不同的設備上,根據不同的算力和要求,做不同的裁切和組合,以適應在設備上達到最優效果,這就是為什麼要做個標準。

駱軼航:智譜的技術未來是在雲上,智譜的商業落地是在端上,這麼說對嗎?

張帆:我覺得也不能這麼說,它不太好說,如果來定義智譜,智譜的未來還是在AGI,包括這張圖全部都是以AGI為目標做的步驟拆解,目前按照這個狀態在持續發展。端只是一種媒介一種載體。

駱軼航:好,感謝張帆的分享。