LPU取代英偉達?我看夠嗆

都說資本市場從來不缺故事講,最近A股大神們講的故事那都繞不開Deepseek,各種小作文全方面吹了一波國產大模型的技術路線,想必各位也已經快聽吐了。

眼瞅著Deepseek的底褲都快被人扒下來了,東尼心想著這下總歸不會有新東西可以拿出來了吧,各家上市公司的股價也可以消停一波了。結果這兩天又在微博刷到幾篇震驚體作文,說「Deepseek已經是前菜啦,LPU才是真正的氫彈級突破!」

一聽氫彈都來了,還是點進去看看吧。東尼也好奇,這號稱能扼殺英偉達前程的LPU芯片到底是什麼來頭。

不過在連續看了幾篇文章、讀了幾篇研報之後,東尼覺得這芯片真沒股票專家們吹得那麼美好……

首先給大家介紹一下「LPU」到底是個什麼。

它並不是什麼新東西,特指去年美國Groq公司發佈的一款AI處理器,它的中文名字叫做「語言處理單元」,給大語言模型做推理計算用的。值得一提的是目前暫時沒有任何國產的消息,說實話這概念就算用在炒A股上也是有點超前了。

它如今又被大家拿出來炒,還是因為有人研究了Deepseek的低成本方案,發現他們僅僅在CUDA驅動的PTX層做了一些優化,就實現了內存和通信效率的大幅提升。那麼如果再「為算法單獨設計硬件」,效率的提升會更加可觀。

於是大夥兒突然想開了,之前干AI就往上堆顯卡的做法是自己把路走窄了。現有的硬件和軟件都能再壓榨壓榨,能起到事半功倍的效果。

這軟件Deepseek幹了,硬件嘛,研究員們翻箱倒櫃找出來的玩意就是LPU了。作為針對大語言模型推理專門設計出的硬件,在發佈之初,官方宣稱它的推理速度是英偉達GPU的十倍,成本卻僅有英偉達的十分之一。

它的高效率實現原理其實不複雜,LPU把通用GPU裡頭的高帶寬內存(HBM)換成了容量更低、但速度更快的靜態隨機內存(SRAM),對於大語言模型這種需要頻繁讀取內存的計算來說,推理速度就會快不少。

給大家舉個例子吧,HBM就好比是原本的雙向八車道,雖然很寬但什麼車都能跑、紅綠燈也多,反而很容易堵在一起;而SRAM就像是雙向兩車道、只能跑公交的快速路,雖然車道變少了,但通行效率卻更高。

聽起來有點意思是吧?眾所周知,這顯卡原本是給遊戲佬們打遊戲用的,誤打誤撞整了個CUDA之後被人發現很適合算AI,老黃也順水推舟佈局了一下通用GPU和AI運算,結果就造就了如今的萬億帝國;這LPU聽名字就是給大模型準備的,這豈不是比英偉達的起點還要高?

好了,說到這裏東尼要開始潑冷水了:事實上當前LPU的局限性可能比你想像的要多,未來怎麼樣不好說,至少現在看來想替代通用GPU還差點意思。

為瞭解釋這個問題,我們首先得講一個看起來表面沒什麼關聯的故事——關注幣圈的老哥們可能都知道,有個東西叫做ASIC礦機。這裏所謂的「ASIC」是一種專為某種用途定製的芯片。用於挖礦的ASIC直接在硬件層面就實現了某種挖礦算法,這樣一來挖礦的效率要比顯卡高上不少,費用也要便宜一些。

你看,更低成本、更高效率、專用芯片,聽起來跟LPU好像是一個路子呀?

但是直到最後,顯卡都沒有被「礦場」淘汰,還是老黃自己出手自廢武功,禁了40、50系顯卡挖礦時的HASH算力。這是為什麼呢?因為ASIC礦機的計算效率確實是高,但代價就是……「專用」。

前面說到了,ASIC芯片在硬件設計層面就匹配了挖礦的算法,所以就導致挖比特幣的ASIC礦機能且只能挖比特幣、挖以太坊的能且只能挖以太坊。礦主們要是想換個幣挖挖,那得連機器一塊換了才行。這就有點抽像了哇:要是哪天比特幣不值錢了,哥們囤的比特幣礦機不就都成礦渣了?

後來加密貨幣逐漸井噴,一天發一個新幣種不難,但是一天設計一款新的ASIC挖礦芯片可就沒那麼容易了。

現在大夥應該明白了,顯卡相比礦機看似毫無優勢卻能經久不衰,主要原因就在於顯卡更「通用」。即使英偉達40系開始已經不再能挖礦了,礦場上還是有很多30系的顯卡在發光發熱。

而LPU這邊兒也是差不多道理,正因為它是專用於大語言模型推理的芯片,所以要是讓它處理個圖片影片之類的就沒有優勢了。可如今人們都想讓AI干更多的事情,除了能推理還需要它能識別物品、聽懂語言,全靠LPU撐起AI算力的一片天顯然不現實。而且在AI訓練這方面,內存較小的SRAM也難堪大用,還是得顯卡出手。

而且,「ASIC礦機」能夠引爆市場還有一個原因——它不僅僅是比顯卡高效那麼簡單,它是比顯卡的效率高了一千多倍!比特幣ASIC礦機發展到最後,挖礦效率甚至比顯卡高了上萬倍!

但如今的LPU芯片遠沒有這麼誇張的效率提升:Groq官方說效率提升一百多倍,也有新聞說提升十幾倍。但不論是哪個信源的結論,都比當年ASIC礦機的成績差遠了,誰能保證LPU會不會成為更不值錢的礦渣?

還有各家資本侃侃而談的成本,其實去年的這個時候,我們的同行「芯東西」也寫過LPU芯片的消息,其中引用了前阿里副總裁賈揚清做過的一個粗略的測算:

按照三年時間的運營成本來計算,Groq LPU的採購成本會是英偉達H100的38倍,運營成本則達到了10倍。

看到這裏,LPU芯片目前是個什麼水平相信大家也都比較清楚了。

東尼並不認為LPU是個沒用的東西,畢竟當年NPU剛推出的時候,小夥伴們普遍也都不太看好——但是如今幾乎只要是個消費級的處理器芯片,裡面就會集成一個小型NPU。

但東尼覺得,如今吹LPU還是有點兒為時過早,尤其是各路A股大神藉著LPU就開始「薦股」,搞得我也挺納悶兒的,不知情的還以為LPU是中國公司造的。這可真是有點兒不厚道了。

更何況,當下的AI行業還是有很多的不確定性——Deepseek的低成本模式會不會是曇花一現?現在的AI模型會不會被更高效的取代?下一代GPU會不會有劃時代的技術突破?這些誰也說不準。

當然了,未來的不確定性也有可能是對LPU有利的。但現階段咱還是別聽A股大神們胡吹,他們要是能壓準,早就不在這兒給你推薦LPU概念股了。

圖片、資料來源:

Medium

cnBeta,Groq LPU人工智能推理芯片的運算表現可與主流廠商媲美

Groq官網

Fastbot.ai,What is an LPU and Why is it Faster than GPUs?

微博

Amazon

英特爾,使用FPGA的無線解決方案

bitmain

本文來自微信公眾號:差評X.PIN (ID:chaping321),作者:東尼,撰文:小柳,編輯:米羅、麵線