2600 tokens / s:Meta 發佈 Llama API,攜手 Cerebras 打造最快 AI 推理解決方案
IT之家 4 月 30 日消息,在首屆 LlamaCon 大會上,Meta 公司在推出獨立 AI 應用之外,還發佈了 Llama API,目前以免費預覽形式向開發者開放。
IT之家援引博文,Llama API 支持開發者測試包括 Llama 4 Scout 和 Llama 4 Maverick 在內的最新模型,提供一鍵 API 密鑰創建以及輕量級的 TypeScript 和 Python SDK。
開發者可通過一鍵創建 API 密鑰,快速上手使用,同時 API 還提供輕量級的 TypeScript 和 Python SDK。為了方便開發者從 OpenAI 平台遷移應用,Llama API 完全兼容 OpenAI SDK。

Meta 還聯手 Cerebras 和 Groq,進一步優化 Llama API 的性能。Cerebras 宣稱,其 Llama 4 Cerebras 模型的 tokens 生成速度高達 2600 tokens / s,比 NVIDIA 等傳統 GPU 解決方案快 18 倍。
根據 Artificial Analysis 基準測試數據,這一速度遠超 ChatGPT 的 130 tokens / s 和 DeepSeek 的 25 tokens / s。
Cerebras CEO 兼聯合創始人 Andrew Feldman 表示:「我們很自豪能讓 Llama API 成為全球最快的推理 API。開發者在構建實時應用時需要極致速度,Cerebras 的加入讓 AI 系統性能達到 GPU 雲無法企及的高度。」
此外,Groq 提供的 Llama 4 Scout 模型速度為 460 tokens / s,雖不及 Cerebras,但仍比其他 GPU 方案快 4 倍。在 Groq 上,Llama 4 Scout 每百萬 tokens 輸入費用為 0.11 美元,每百萬 tokens 輸出費用為 0.34 美元;Llama 4 Maverick 每百萬 tokens 輸入費用為 0.50 美元,每百萬 tokens 輸出費用為 0.77 美元。
廣告聲明:文內含有的對外跳轉鏈接(包括不限於超鏈接、二維碼、口令等形式),用於傳遞更多信息,節省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。