Cohere 發佈多語言 Command A 模型:僅需兩張 GPU 即可服務全球企業

整理 | 華衛、核子可樂

日前,加拿大 AI 初創公司 Cohere 發佈了其最新生成式 AI 模型 Command A,據稱專為企業應用場景設計而成。據瞭解,Cohere 由 2017 年開啟大語言模型革命的 transformer 論文作者之一 Aidan Gomez 與他的兩位多倫多大學校友 Ivan Zhang 和 Nick Frosst 聯合創立。除此之外,該公司旗下非營利子公司 Cohere for AI 還於本月初發佈了名為 Aya Vision 的開源多語言視覺模型(僅供研究)。

據介紹,作為 2024 年 3 月首次亮相的 Command-R 及後續 Command R+ 大模型的繼任者,Command A 以 Cohere 在檢索增強生成(RAG)、外部工具以及企業 AI 效率領域的研發成果為基礎,主要強調以更快速度完成計算並交付答案。

比 Command-R 更進一步

當初 Command-R 於 2024 年首次亮相時,就曾引入一系列關鍵創新,如優級 RAG 性能、更好的知識檢索效果與更低的 AI 部署成本。該模型很快獲得企業青睞,並被整合至甲骨文、Nation、Scale AI、埃森哲及麥肯錫等公司的商業解決方案當中。不過 Menlo Ventures 在 2024 年 11 月發佈的企業採用調查報告中指出,Cohere 在企業領域的市場份額僅為 3%,遠低於 OpenAI 的 34%、Anthropic 的 24% 乃至 Mistral 等小型初創廠商的 5%。

如今,為了吸引更多企業的加入,Command A 進一步拓展了這些功能。根據官方介紹,新版本:

  • 在商業、STEM 及編碼任務中等同或超越了 OpenAI 的 GPT-4o 與 DeepSeek-V3。

  • 可僅依託兩張 GPU(A100 或 H100)運行,相較於其他需要多達 32 張 GPU 模型在效率上實現了顯著提升。

  • 可實現更快的 token 生成速度,每秒可生成 156 個 token——相當於 GPT-4o 的 1.75 倍,DeepSeek-V3 的 2.4 倍。

  • 降低延遲,首 token 生成時間為 6500 毫秒,優於 GPT-4o 的 7460 毫秒與 DeepSeek-V3 的 14740 毫秒。

  • 增強多語言 AI 能力,改進了對阿拉伯語方言的支持並擴展支持 23 種全球語言。

Cohere 通過 Command A 延續了其企業優先戰略,確保此模型能夠無縫集成至業務環境當中。Command A 的核心特性包括:

  • 高級檢索增強生成(RAG):為企業應用程序提供可驗證的高精度響應結果。

  • 使用代理式工具:與企業工具相集成以支持複雜的工作流程。

  • North AI 平台集成:與 Cohere 的 North AI 平台配合使用,允許企業使用安全的企業級 AI 智能體自動執行任務。

  • 可擴展性與成本效率:私有部署的成本比 API 訪問低 50%。

  • 支持多種語言,在阿語支持方面表現出色。Command A 的一大突出特點,是它能夠對全球 23 種最常用語言生成準確響應,包括經過改進的阿拉伯方言處理能力。

此外,速度是企業 AI 部署中的關鍵因素,Command A 的設計目標正是以超越競爭對手的速度交付生成結果。100K 上下文請求的 token 流速度為:每秒 73 個 token(相比之下,GPT-4o 為每秒 38 個 token,DeepSeek-V3 則為每秒 32 個 token)。首次 token 生成速度更快:與其他大模型相比,Command A 的響應速度明顯更快。

基準測試結果中,Command A 在使用阿拉伯語響應英語提示詞的準確率為 98.2%——高於 DeepSeek-V3 的 94.9% 與 GPT-4o 的 92.2%。它在方言一致性方面的表現似乎也明顯優於競爭對手,ADI2 得分為 24.7,遠高於 GPT-4o 的 15.9 與 DeepSeek-V3 的 15.7。

憑藉更快的速度、更低的硬件要求加上擴展後的多語言功能,Command A 將自身定位成 GPT-4o 及 DeepSeek-V3 等模型的有力替代選項——請注意,這裏列出的均是經典的大語言模型,而非最近掀起行業熱潮的新興推理模型。與能夠支持 12.8 萬個 token 上下文長度(即大模型在一次輸入 / 輸出交換中可以處理的信息量,12.8 萬 token 相當於一本 300 頁的小說)的前身不同,Command A 將上下文長度增加了一倍,達到 25.6 萬個 token(相當於 600 頁文本),同時提高了整體效率與生產應用就緒水平。

行業反響

現在,Command A 已在 Cohere 平台上正式上線,並在 Hugging Face 上基於 Creative Commons Attribution Non Commercial 4.0 International (CC-by-NC 4.0) 許可證提供開放權重,但僅供研究使用。後續還將面向廣泛雲服務商提供支持方案。輸入 token:每百萬個 2.5 美元;輸出 token:每百萬個 10.00 美元。可根據要求提供私有與本地部署。

多位 AI 研究人員及 Cohere 團隊成員表達了自己對於 Command A 的讚賞之情。Cohere 公司預訓練專家 Dwaraknath Ganesan 在 X 上發帖表示:「很高興能夠展示我們過去幾個月間傾力研究的成果!Command A 非常出色,只需兩張 H100 GPU 即可部署!256K 上下文長度、經過擴展的多語言支持、代理式工具使用……我們對此深感自豪。」

Cohere 公司 AI 研究員 Pierre Richemond 補充道,「Command A 是我們全新打造的 GPT-4o/DeepSeek V3 級別、開放權重 111B 模型,可支持 256K 上下文長度,且針對企業用例的運行效率進行了優化。」憑藉更快的運行速度、更大的上下文窗口、更好的多語言處理能力以及更低的部署成本,它將針對企業需求為現有 AI 模型提供強大的替代選項。

Cohere 在其開發者文檔中指出,「Command A 非常健談。在預設情況下,該模型為交互式設計,並針對對話進行了優化。就是說它的輸出內容很長,而且會使用 markdown 來高亮顯示代碼。要覆蓋此機制,開發人員可在前置詞中要求模型僅提供答案,且不使用 markdown 或代碼塊標記。」

由此看來,Command A 有望成為那些預算有限、但又亟需建立 AI 優勢的企業,以及快速響應類應用場景(例如金融、醫療、醫學、科學和法律)下的理想模型選項。

參考鏈接: