正陽恒卓首席科學家高凱：構建高效可靠的智算中心是一個系統工程

新浪科技訊 1月6日上午消息，近日舉辦的第二屆人工智能產業應用大會上，北京正陽恒卓科技有限公司（下稱正陽恒卓）首席科學家高凱結合公司智算中心建設領域實際實踐，提出AI基礎設施（即AI Infra）建設運營中面臨的高效性和可靠性挑戰，並介紹了為更好地服務人工智能產業應用正陽恒卓做出的相關技術創新。

高凱指出，客戶往往期望AI任務可以高效利用智算中心提供的硬件資源，將集群規模增大、硬件升級充分轉化為性能提升。但現實是，對於大規模分佈式AI任務來說，單純提高機器數量和升級計算芯片能力後，性能並不容易達到線性提升。

高凱認為這背後的原因是“大規模分佈式AI任務資源需求巨大，容易造成碎片化資源閑置，並對調度系統性能帶來更高要求；此外，並行方法和通信順序也會影響分佈式AI任務的效率”。

為解決上述問題，高凱指出：“大規模分佈式AI基礎設施，必須具備高效的系統容錯能力，以及豐富的並行策略。”他表示，“為解決上述問題，目前國內外的一些大廠早已支持三維並行策略，甚至正在推進五維並行策略。”

此外，高凱還指出，“在建設智算中心過程中，客戶往往期望AI大模型能夠在智算中心中可靠地運行，但現實是，AI系統中的各個組件都可能出現故障並導致AI任務中斷或失敗。”

這背後的原因是，“AI任務依賴專用硬件，和傳統計算集群在能源、產熱、工作條件等方面存在差異；此外，主流AI並行框架採用同步方式運行，存在單點故障問題，傳統雲平台的容錯能力並不適用，最終導致故障原因多樣，純用戶視角難以準確定位問題。”

“大規模分佈式AI系統的容錯能力是AI系統穩定運行的基礎，已經成為全球AI大廠開始競相關注的問題。”高凱表示。

結合正陽恒卓為國家超算、大模型公司等企業建設大規模智算中心的經驗，高凱指出，“建設高效可靠的Al Infra是一個系統工程，可靠性和高效性都必須遵循從硬件到軟件系統性開發的原則，而且可靠性和高效性的技術應該被封裝，從而儘可能對用戶透明”。

他將Al Infra的構建分為智算中心建設、Infra服務運營、AI開發部署框架以及AI應用開發四個層級。並進一步指出，區別於大型廠商能夠實現從底層硬件到上層AI應用的全棧自主研發，絕大部分小型企業往往不具備這樣的經濟能力和人才儲備。為了助推人工智能產業應用的發展，提供高效可靠的AI Infra是智算中心未來需要具備的基本能力和發展趨勢。

據高凱介紹，為能夠讓AI Infra能夠普惠更多的人工智能產業應用企業，正陽恒卓正致力於領導並構建一個開放的、面向高效可靠智算中心的AI Infra基礎框架。這個開放基礎框架中的功能模塊基於開放的標準進行設計，希望吸引更多相關行業的企業和開發者共同組建技術生態：讓用戶的模型開發、部署、應用能夠在不同的算力環境中實現無感的遷移，而AI Infra企業則可以通過技術創新提供高效性和可靠性的增值服務。

據高凱介紹，正陽恒卓成立於2015年4月，目前已服務超300家企業客戶，是英偉達認證的精英級合作夥伴，已連續兩年成為NVIDIA Networking NPN 業績第一名。（文猛）