成本降低90%!Claude上新Gemini同款提示詞緩存,一次性記住整個代碼庫

基爾西 發自 凹非寺

量子位 | 公眾號 QbitAI

Claude深夜上新重磅功能——API長文本緩存。

新版API可以「記住」一整本書或整個代碼庫,不需要再重覆輸入了。

這樣一來,不僅處理長文本的延時更低,更是能節省最高90%的成本

來看看這降本的效果~

△假定重覆部分為1萬Token,模型為3.5 Sonnet,只計算輸入假定重覆部分為1萬Token,模型為3.5 Sonnet,只計算輸入

今年5月,Google在Gemini更新中提出了這項功能,然後是國內的Kimi和DeepSeek團隊,總之現在又輪到了Claude。

值得一提的是,廠商Anthropic的推文當中提到,提示詞緩存功能可以讓用戶用更長、更有指導性的提示詞對模型進行「微調」。

有網民看了之後感慨,人們本來就很難分清提示工程(prompting)和微調(fine-tune),這下更不好區分了。

當然在這種場合下,也難免會有人點名或不點名地cue起隔壁的OpenAI。

成本節約高至90%

提示詞緩存的作用,就是一次給模型發送大量prompt,然後讓它記住這些內容,並在後續請求中直接複用,避免反復輸入。

對此,博主Dan Shipper做了這樣的一個比喻:

假設你在一家咖啡館,第一次點單的時候需要告訴店員自己點的內容,但是接下來再去只需要說一句「和平常一樣」就可以了。

不過需要注意的是,緩存的有效期為五分鐘,但每讀取一次計時都會被重置,一直連續提問時無需擔心。

在Claude的官方文檔中,也介紹了幾個典型的應用場景,非常適合代碼和長文檔處理。

  • 對話:降低擴展會話的成本和延遲,尤其是包含長指令或附有文檔的會話;

  • 代碼助理:通過在prompt保存的對代碼庫的總結,改善代碼自動補全和問答功能;

  • 大型文檔處理:在提示中納入完整的長格式材料(包括圖像),而不會增加響應延遲;

  • 詳細的指令集:(在多個對話中)共享詳細的指令、過程和示例列表以進行微調Claude的回應;

  • 搜索和工具調用:增強涉及多輪工具調用和迭代更改的場景的性能;

  • 長文本對話:將整個文檔(書、論文、播客腳本等)嵌入到提示中並讓用戶提出問題,從而對知識庫進行增強。

由於不需要反復輸入重覆的腳本,提示詞緩存具有速度更快、成本更低這兩大優勢。

比如在基於一本10萬Tokens的圖書進行對話時,以往模型需要11.5秒才能生成首個輸出Token,但有了提示詞緩存就只需要2.4秒,降低了79%,成本更是減少90%

在其他場景中,延時和成本也有不同程度的降低。

定價上,原有的輸入和輸出Token價格不變,提示詞緩存的價格則分成了寫入和讀取兩個部分。

最小的Haiku每百萬Token的寫入和讀取價格分別是30美分(約合人民幣兩塊一)和3美分。

3.5 Sonnet則是寫入3.75美元,讀取0.3美元,最大號的Opus是18.75美元和1.5美元。

可以看出,初始寫入的價格相對於輸入要高一些,但讀取的價格只有重覆輸入的十分之一。

換言之,緩存被反復讀取的次數越多,相比於重新輸入節約的成本也就越多

舉個例子,假設要發送1萬次請求,重覆部分包含1萬Tokens,如果不用緩存,總輸入是1億Tokens,用Sonnet需要300美元。

但如果開啟緩存,就只需要1÷100×3.75+1×10000÷100×0.3=30.03美元,節省了近90%。

還是假設重覆部分包含1萬Tokens,那麼從下圖可以看出,隨著調用次數的增加,成本優勢將越來越明顯

對於開發者來說,這無疑是一項重大利好。

AI寫作工具HyperWriteAI創始人兼CEO Matt Shumer就表示,這項更新相當重大。

這意味著人們可以用更低的成本把一整個代碼庫喂給模型,然後要求增加新功能;或者突破一次只能RAG 5個的限制,直接輸入大量文檔;又或者直接給出數百個示例,以得到「比微調更好的結果」。

目前該功能支持3 Haiku和3.5 Sonnet,Opus則將在稍晚一些更新。

頂級玩家紛紛跟進

這項功能並非是Claude首創,今年5月,Google的Gemini就已經支持了上下文緩存。

後來國內月之暗面Kimi深度求索團隊的DeepSeek也進行了跟進。

值得一提的是,DeepSeek團隊把這項技術的存儲介質換成了硬盤,還降低了存儲成本。

觸發方式也有所區別,比如DeepSeek是由系統自動判斷哪些內容需要緩存,Claude則是要在調用時手動添加標記。

雖然在細節上各家有各自的做法,但這種新模式,已經受到了國內外頂級玩家的青睞,未來可能會成為大模型廠商的新標配。參考鏈接:

[1]https://twitter.com/anthropicai/status/1823751314444021899

[2]https://www.anthropic.com/news/prompt-caching

[3]https://twitter.com/danshipper/status/1823790134745289106