CPU、GPU的互連從1米飆至100米,英特爾:你相信光嗎?

金磊 發自 凹非寺

量子位 | 公眾號 QbitAI

英特爾用「光」,突破了大模型時代棘手的算力難題——

推出業界首款全集成OCI(光學計算互連)芯片。

△圖源:英特爾△圖源:英特爾

要知道,在AI大模型遵循Scaling Law發展的當下,為了取得更好的效果,要麼模型規模、要麼數據規模,都在往更大的趨勢發展。

這就會導致AI大模型在算力層面上,對整個計算、存儲,包括中間I/O通信等提出更高的要求。

而英特爾此次的突破口,正是I/O通信

在CPU和GPU中,用光學I/O取代電氣I/O進行數據傳輸。

有什麼用?

一言蔽之,數據傳輸距離遠多了量大了功耗低了——更適合AI大模型的「體質」了。

△圖源:英特爾△圖源:英特爾

那麼英特爾為什麼要用到「光」?具體又是如何實現的?

用上了「光」,從馬車變卡車

傳統採用電氣I/O的方式(銅線連接)固然有它的優勢,例如支持高帶寬密度和低功耗,但致命的問題就是傳輸距離比較短(不到1米)

這要放在一個機架里倒也是沒有問題,但AI大模型在算力上往往標配都是服務器集群這個量級。

不僅佔地面積大,還跨N多個機架,線都是需要幾十米甚至上百米的長度,功耗那是相當的高;它會吃掉所有供給機架的電源,以至於沒有足夠的電去做計算和存儲芯片的讀寫操作。

除此之外,存算比方面,也正是因為大模型「大」的特點,由原來讀取一次做上百次計算的比例,到現在直接變成了接近1:1。

△圖源:英特爾圖源:英特爾

這就需要一種新的辦法,可以在提高算力和存儲密度的同時降低功耗、縮小體積,從而在一個有限的空間里,放進更多的計算和存儲。

而用上了光學I/O,問題便迎刃而解了:

可在最長100米的光纖上,單向支持64個32Gbps通道。

一個形象的比喻就是,就好比從使用馬車(容量和距離有限)到使用小汽車和卡車來配送貨物(數量更大、距離更遠)

不僅如此,即使是在相對較近的距離去完成一些更高密度、更靈活的數據傳輸工作,OCI這種方式則可以類比成電單車,速度更快且更靈活。

值得一提的是,這種OCI的方法不是停留在理論的那種。

據英特爾介紹,他們已經利用了實際驗證的矽光子技術,集成了包含片上激光器的矽光子集成電路(PIC)、光放大器和電子集成電路。

並且在此前也展示了與自家CPU封裝在一起的OCI芯粒,還能與下一代CPU、GPU、IPU等SOC(系統級芯片)集成。

還沒完,英特爾也已經出貨了超過800萬個矽光子集成電路,其中超過3200萬個現已投入使用的激光器。

△圖源:英特爾△圖源:英特爾

那麼接下來的一個問題是:

英特爾的OCI是如何「煉」成的?

英特爾研究院副總裁、英特爾中國研究院院長桑治繼強的交流過程中,他對這個問題做了深入的剖析和解讀。

△英特爾研究院副總裁、英特爾中國研究院院長,桑治繼強△英特爾研究院副總裁、英特爾中國研究院院長,桑治繼強

矽光子技術集合了20世紀兩項最重要的發明:矽集成電路和半導體激光。

與傳統電子產品相比,它支持在較遠的距離內更快的數據傳輸速度,同時利用英特爾高容量矽產品製造的效率。

英特爾這一次發佈的矽光集成技術,OCI芯粒達到了光電共封裝的層面。

這個光電共封裝是把一個矽光子集成電路(PIC),和一個電子集成電路(EIC),放在一個基板上組成了一個OCI芯粒,作為一個集成性連接的部件。

這就意味著xPU,包括CPU,未來的GPU都可以和OCI芯片封裝在一起。

OCI芯粒就是把數據中心CPU出來的所有的電氣I/O信號轉成了光,通過光纖,在兩個數據中心的節點或者是系統裡面去互相傳輸。

目前的雙向數據傳輸速度達到了4Tbps,它在上層的傳輸協議兼容到PCIe 5.0,單向支持64個32Gbps通道,這在目前的數據中心當中是足夠用的:

它採用8對光纖,功耗僅為每比特5皮焦耳(pJ),即10-12焦耳,這個數據比可插拔光收發器模塊的功耗降了3倍(後者是每比特15皮焦耳)

△圖源:英特爾△圖源:英特爾

在一個光傳輸的通道里,它實際上有8個不同的波段,每個波段的頻率間隔是200GHz,一共佔用了1.6THz光譜的間距用來傳輸。

光從可見光到不可見光,實際上它的頻譜寬度是很寬的,從THz開始就算是接近光通訊了。

那麼OCI芯粒未來會用在哪些領域呢?

對此,桑治繼強表示:

一個是可以用它來實現通信,還可以把它跟CPU、GPU這些計算芯片封裝在一起,計算加通信非常緊密地封裝在一起。

我們通過矽光集成和先進封裝技術,先進封裝英特爾也有非常多不同的技術,就可以實現更高密度的I/O芯粒,然後再和其它的xPU結合,未來基於芯粒,形成很多不同種類的計算加互連的芯片種類,會有非常好的應用前景。

就OCI I/O接口芯粒的性能演進路線圖來看,它目前可以達到32Tbps傳輸速度的技術方案,主要靠迭代式的穩步提升三個方面的指標,分別是:

  • 一根光纖里有8段穩定的波段

  • 每一個波段的光數據傳輸率為32Gbps

  • 可同時拉8對光纖且互不影響

這三個指標乘起來,就是目前單向上有2Tbps的數據傳輸速度,雙向即是4Tbps。未來可以繼續向上演進,逐步提升帶寬能力。

△圖源:英特爾△圖源:英特爾

最後,英特爾在矽光集成技術的差異化方面,桑治繼強也做出瞭解釋:

主要是我們把高頻率的激光發射器做在了晶圓上,又把矽的光放大器也集成上去,這是兩個比較核心的技術,都是在晶圓級去製造出來的。

接下來,我們可以量產這樣的高集成度激光器,因為這種在片上的激光器的好處是用普通的光纖就可以去傳輸了。

並且在穩定性方面,幾乎是100億小時才有可能發生一次錯誤

那麼你覺得英特爾pick的「光」如何呢?歡迎在評論區留言討論。

參考鏈接:

[2]https://community.intel.com/t5/Blogs/Tech-Innovation/Artificial-Intelligence-AI/Intel-Shows-OCI-Optical-I-O-Chiplet-Co-packaged-with-CPU-at/post/1582541

[3]https://www.youtube.com/watch?v=Fml3yuPR2AU