Google Gemini 2.5 API 推「隱式緩存」,開發者成本最高降低 75%

IT之家 5 月 10 日消息,科技媒體 WinBuzzer 昨日(5 月 9 日)發佈博文,報導稱Google為其 Gemini 2.5 API,推出了「隱式緩存」(Implicit Caching)功能,自動識別並重用 API 請求中的常見前綴,開發者的成本最高可以降低 75%。

該功能適用於 Gemini 2.5 Pro 和 Gemini 2.5 Flash 模型,自動檢測 API 請求中的重覆前綴並加以重用,開發者的使用成本最高可以降低 75%。

IT之家註:與 2024 年 5 月推出的「顯式緩存」(Explicit Caching)不同,隱式緩存無需開發者手動配置,系統預設開啟,節省成本的同時大幅簡化操作流程。

為幫助開發者充分利用隱式緩存,Google建議在構建提示詞(Prompt)時,將穩定、常見的內容放在開頭,後面再添加用戶特定的變量內容。此外,短時間內發送具有相似前綴的請求也能提高緩存命中率。

Google還設定了最低 Token 數量要求:Gemini 2.5 Flash 需 1024 個 Token,Gemini 2.5 Pro 則需 2048 個 Token。API 響應中新增的「cached_content_token_count」字段會顯示緩存 Token 的使用情況和優惠計費詳情。

與此同時,顯式緩存仍作為可選方案,支持 Gemini 2.5 及 2.0 模型,允許開發者自定義緩存內容和生存時間(湯臣L,預設 1 小時)。

Google此舉雖宣稱成本節省 75%,但實際效果尚待第三方驗證,且可能因使用模式不同而有所差異。

廣告聲明:文內含有的對外跳轉鏈接(包括不限於超鏈接、二維碼、口令等形式),用於傳遞更多信息,節省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。