DeepSeekV3發佈 外國專家:展示了資源受限下的研究力
新京報貝殼財經訊(記者羅亦丹)12月26日晚間,杭州深度求索人工智能基礎技術研究有限公司推出全新系列模型DeepSeek-V3首個版本上線並同步開源。相比其他「AI六小虎」公司,深度求索較為低調,但DeepSeek模型由於其開源特性,以及更小的訓練成本、更低的花費以及同樣優越的性能,推出後在一天之內就受到了國外行業專家們的廣泛讚譽。
12月27日,著名AI研究者、OpenAI創始成員之一的Andrej Karpathy評價DeepSeek-V3的表現時稱,「今天,一家中國AI公司輕而易舉地發佈了一個前沿大語言模型,其僅使用2048塊GPU訓練了2個月,只花費了近600萬美元。而作為參考,這種級別的能力本應該需要接近1.6萬塊的GPU集群,而目前正在部署的集群包含的GPU數量卻接近10萬塊。例如,Llama 3405B模型使用了3080萬GPU/小時,而DeepSeek-V3模型看起來更加強大,卻僅使用了280萬GPU/小時(計算量減少了約11倍)。如果此模型還能通過各項評估,那麼這將是資源受限條件下研究與工程能力的高度令人印象深刻的展示。」
根據深度求索官方公佈的信息,DeepSeek-V3 多項評測成績超越了Qwen2.5-72B和 Llama-3.1-405B等其他開源模型,並在性能上和世界頂尖的閉源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。
此外,通過算法和工程上的創新,DeepSeek-V3 的生成吐字速度從20TPS大幅提高至60TPS,相比V2.5模型實現了3倍提升。定價方面,該公司的模型API服務定價為每百萬輸入tokens 0.5元(緩存命中)/ 2元(緩存未命中),每百萬輸出tokens 8元。
編輯 陳莉 校對 盧茜