科學家研發大模型新框架,實現1.27倍加速,助力解決RISC-V軟件生態瓶頸

算子(Kernel),作為連接硬件與軟件的核心軟件層,是軟件生態中的重要一環。算子優化是旨在根據硬件架構和芯片設計,優化特定程式代碼,以儘可能挖掘硬件潛力,提高程序運行速度的工作。

當前算子優化主要依靠專家通過試錯法進行手動優化,這一過程不僅耗時,而且需要跨硬件、軟件和指令集架構(ISA,Instruction Set Architecture)的多學科專業專家合作開發,人力和時間成本都十分高昂。對於新興的 ISA 架構而言,其配套算子庫的性能優化缺口已成為阻礙廣泛部署的主要瓶頸。

隨著大模型的發展,自動化算子優化領域出現了新範式。大模型驅動的方法利用其生成能力,通過最少的人工指導生成或迭代改進算子實現,已經湧現出了一批科研成果。尤其在 CUDA 算子優化領域,這一範式已展現出顯著潛力——完備的技術文檔和成熟的代碼庫使得現成的大模型能夠在部分算子問題上取得超越人類專家的效果。

然而,在 RISC-V 等新興架構或指令集上,參考材料的稀缺,限制了這種新興範式的有效性。

為此,來自香港城市大學的研究人員開展了一項課題,並研發出了一款名為 EoK 的應用。

圖 | 研究人員(來源:研究人員)圖 | 研究人員(來源:研究人員)

首先,EoK 通過系統化挖掘成熟開源算子庫的開發歷史(如 Git 提交記錄),構建結構化的優化「想法」池。每個想法包含通用設計原則和一系列可操作思路,其中包括簡明技術描述、示例代碼和歷史效果評估。這種方法為大模型提供了明確的數據驅動指導,彌補了訓練數據中 RISC-V 參考材料的缺失。

其次,EoK 採用基於檢索增強生成(RAG,Retrieval-Augmented Generation)的並行搜索策略,通過同時沿多個優化方向(由想法池中的不同想法定義)進行並行探索,並結合 RISC-V 特定的上下文信息(包括 ISA 手冊和硬件配置文件),顯著提高了搜索效率和效果。每個想法引導的搜索都根據歷史效果加權采樣可操作思路,確保優先驗證經過實踐檢驗的技術,同時保持探索多樣性。

通過這種方法,EoK 在 80 個算子設計任務中實現了中位數 1.27 倍的加速效果,在幾乎所有任務上超越人類專家性能,並將現有大模型方法的性能提升了 20%。這些結果表明,將人類經驗系統化地融入新興領域優化過程的可行性,同時也凸顯了大模型驅動的自動化算子優化在 RISC-V 領域的巨大潛力。

(來源:https://arxiv.org/pdf/2509.14265)(來源:https://arxiv.org/pdf/2509.14265)

在應用前景上:

其一,可用於多架構支持擴展:EoK 的方法論可以擴展到其他開放或專有 ISA(如神經網絡異構計算架構、元計算統一系統架構等 AI 加速指令集或其它新興 ISA),通過適配想法池和參考材料,打破 CUDA 壁壘,實現跨平台算子優化,促進硬件創新和軟件創新的協同進化。

其二,可用於 DAY0/DAY1 級適配:EoK 相較於其它大模型方法,其算子優化時間開銷更低,能夠幫助國產新興的 AI 加速算力在 Day0/Day1 級別對於類似於 Deepseek v3.2 等新型模型軟件架構實現支持,推動新興軟硬件生態正循環。

其三,可用於定製處理器算子優化:針對特定應用場景(如邊緣計算、具身智能等),EoK 可以自動生成高度優化的算子,減少開發時間並提升能效。

其四,可用於硬件-軟件協同設計:在芯片設計階段,EoK 可用於快速原型化和評估不同硬件配置下的算子性能,輔助設計決策,縮短產品上市週期。

目前,研究人員正在推進對於知識「想法」池的進一步挖掘,以期能夠使大模型在學習人類算子優化經驗和自動優化算子過程中,拓展可能的算子優化空間和範式。

參考資料:

https://arxiv.org/pdf/2509.14265