Kimi 開始回本了

作者|陶然   編輯|魏曉

to C業務狂飆大半年的Kimi,開始在B端發力了。

八月尚未過半,兩則直接關聯其商業化進程的消息,在市場中傳開:

二日,Kimi母公司月之暗面官宣Kimi企業級API正式發佈。相較於覆蓋to C需求的通用模型,企業級模型推理API有著更高等級的數據安全保障和併發速率,用以支持企業內部的複雜工作流和大規模的數據處理需求。

五天后,公司再次放出商業化動作,宣佈Kimi開放平台的上下文緩存Cache存儲費用降低50%,由10元/1M tokens/min降低至5元/1M tokens/min,價格生效時間為2024年8月7日。

這項技術實際上早在在7月1日就已通過開放平台啟動公測,通過預存那些可能會被反復引用、頻繁請求的文本或數據等信息來給模型推理過程「降本增效」。

Kimi現今在B端謀求AI變現的動作,絕非此前應用內上線「打賞功能灰度測試」那般仍有試探意味:

從企業級解決方案,到具體場景優化,再到價格調整,月之暗面顯然是有備而來。

大模型應用,向錢看

圈內關於大模型應用的立場,在技術落地日漸密集的2024年清晰分成了兩派。

七月初在上海舉行的世界人工智能大會(WAIC)上,手握目前國內最大規模AI應用訪問量的百度CEO李彥宏在演講中談及了他對大模型應用的看法:C端當然要做,但大模型更有成果的應用場景仍在B端。

圖源/AI產品榜圖源/AI產品榜

李彥宏認為,在AI時代,「超級能幹」的應用,即那些能夠深刻影響產業、顯著提升應用場景效率的應用,其價值或許更為重大,它們所創造的整體價值遠超移動互聯網時代的某些「超級應用」。

未來在醫療、金融、教育、製造、交通、農業等領域,都會依據自己的場景的特點、獨特經驗、行業規則及數據資源等,定製化地開發出做出各種各樣的智能體。將來會有數以百萬量級的智能體出現,形成龐大的智能體生態。

這種打法,可以算作現階段BAT等科技大廠的代表。

從矽星人統計的大模型相關項目中標情況來看,百度今年中標了包括醫療、金融、能源、環保和交通等多個領域的共計17個項目,其中不乏大型國企以及各行各業的頭部公司,金額也基本在百萬甚至千萬級別。

而初創公司代表,像百川智能王小川、月之暗面楊植麟,過去給外界的印像一直是堅定的To C支持者。

AI助手百小應的發佈會上王小川就曾表示,to B業務並非百川主要仰賴的商業模式,在美國做to B是好生意,但國內市場C端比B端「大十倍」。

月之暗面創始人楊植麟雖然沒有在公開場合過多談及公司的變現,但也在幾個月前上海創新創業青年 50 人論壇的演講中表示,得益於Transformer架構的提出、半導體產業發展,以及互聯網為AI積累下來的大量數據,在世界上可能「第一次出現了這種 AI to C 的機會。」

對於是把Kimi做成to C的AI超級應用,還是把名號打響後多點佈局,楊植麟留過活扣:我們to B倒也不是說完全不做,但是我們可能最主要的肯定還是會去聚焦和發力這個C端。

大概是研判時機已到,堅持to C許久的月之暗面,終於對to B「真香」了。

 Kimi to B:

技術和市場都已成熟

從最淺表的層面來說,做to B解決方案和之前在C端的Kimi相比,需要解決的首先一個問題就是:

對於付費玩家,你的服務器不能有事沒事就宕機。

算力規模是個繞不開的話題:月之暗面用一年時間,把Kimi幹到了大模型賽道內流量和使用量的頂流(部分統計顯示,七月份Kimi和文心一言是國內唯二月活超過千萬的主流大模型),但畢竟仍是初創公司,資源比起大廠不會特別富裕是顯而易見的。

很少聽說文心一言、通義千問出現用戶高峰導致算力不足的情況,但經常用Kimi的用戶想必或多或少都被算力牆擋住過幾個回合的問答(最近似乎好些了)

而企業客戶如果將Kimi作為常用的生產力工具,那麼企業級API的服務器就必須保證的穩定性和可靠性,確保在高負載情況下可以正常運行。

結合此番降價的上下文緩存技術來看,除了隨著業務體量按需擴大服務器規模之外,Kimi將另一項中心放在了對現有模型推理的「降本增效」上。

這項技術的費用,通常是因平台或服務提供商維護和提供緩存服務而對客戶收取。以網購類比,如果用戶經常使用同一個購物網站、App,那麼這個網站/App很可能就會在系統中單獨創建一個數據集,將用戶ID、購物車內容、偏好設置信息存儲其中。

而在大模型的使用場景中,如果用戶向系統提交了一個請求,比如詢問一系列問題,或者給Kimi甩過去一篇萬字長文本要求生成報告,大模型在處理請求時就需要理解用戶的查詢上下文,包括之前的問題、相關話題或者某些領域的特定信息。

這部分推理出的中間結果和計算出的關鍵信息往往在用戶後續的問答中會被反復提及(調用),將他們緩存起來以便後續請求時可以快速訪問,是一個相對節省算力資源的選擇。

並非是瀏覽器那種為了方便用戶登錄而記錄用戶名和密碼,這種緩存首先降低的是模型反復閱讀、推理所消耗的資源量,對結果生成效率也會有一定程度提升。利用緩存的上下文信息,大模型可以快速生成響應或推薦內容,而不需要從頭開始重新計算。從而對用戶提出相關問題或需要相關信息加速響應,減少浪費時間的等待。

這種有助於提高系統的響應速度和處理效率,同時保持對話或文本生成的連貫性和準確性的緩存機制,對於提供流暢的用戶體驗和優化資源使用來說會相當關鍵。

尤其在未來可能面對來自B端、更多的用戶和更集中的數據處理請求時,快速響應並高效處理的價值可能進一步突出。

One More Thing

to B動作頻頻的月之暗面,近期還喜提一筆來自鵝廠的大額融資。

市場消息顯示,騰訊參與了月之暗面最新一輪3億美元融資,完成後將使得公司市值升至33億美元,成為國內大模型初創企業中估值最高的一家。

月之暗面並未對此事做出回應,但據稱有接近騰訊方面的消息源表示參投屬實。

至此,被譽為「新AI四小龍」的智譜AI、MiniMax、百川智能和月之暗面,四家公司背後的投資陣營都已有了騰訊及阿里巴巴的參與。

BAT中百度更多選擇做好自己,AT則繼續在通過創投多點下注。

初創公司忙於卷技術做應用,而大廠們似乎已經將注意力的一部分,放在了投資回報率,亦或是未來行業格局的話語權上。