無視安全的公司,離掉隊不遠了

題圖|視覺中國題圖|視覺中國

在信息時代,鋼鐵並不是各公共基礎設施的通用組建,單晶矽才是。從交通到金融,幾乎所有的基礎設施都陳列在私有雲、公有雲網絡上,由全世界最大的幾家雲運營商負責維護。

除了這些雲運營商自己的安全團隊,世界上又存在一批大型網絡安全公司,專為雲上基礎設施提供安全方案和保障。

但這些都沒有阻止上週席捲全球的藍屏事件發生——始作俑者恰恰是網絡安全公司CrowdStrike,一個總資產超過 66 億美元,員工接近8000人的巨頭,以善於解決最棘手的安全事件而聞名。

這個我們正在遷徙去到的數字世界,其實比想像的更加脆弱,一次失敗的更新推送,就導致全球航班大面積停飛,許多航空公司取消當天所有航班;許多醫院的非緊急手術也被迫取消,甚至美國多個州的911報警線路也一度陷入癱瘓。

如果考慮到可控性更低的生成式 AI 正大舉進入數字世界的生產環節,未來的網絡安全形式還將變得更加複雜。

技術解決不了人的問題

人們常把網絡安全問題單純地歸結為技術問題,認為「道高一尺,魔高一丈」,但在雲基礎設施的安全層面,近年來的重大事故多半與技術無關。

以CrowdStrike 引發的重大事故為例,若更新經過測試,問題很容易被發現;若更新是灰度上線的,同樣不會造成如此惡劣的後果。

那麼是 CrowdStrike 的DevOps 平台不夠完善嗎?

顯然不是。事實上,CrowdStrike 在官方網站長期更新著大量DevOps 技術內容,說其是DevOps 布道者也不為過。

可能的答案只剩下一個:負責本次更新的團隊繞過了測試環節,擅自進行了發佈。而相關團隊對灰度的重要性認知不足,默許了該項更新未經測試,直接進行全網發佈。這是目前各家媒體共識度較高的答案,CrowdStrike 自身也並未否定這種推測。

再強大的運維平台,也彌補不了團隊自身安全意識的缺失,偏偏CrowdStrike 也並不是第一次犯下此類錯誤。據紐約時報披露,CrowdStrike 在今年4月,向Linux系統的客戶推送過一次更新,導致計算機崩潰。CrowdStrike 隨後承諾改進其測試流程。沒成想僅僅三個月後,更大的事故就釀成了。

顯然流程並不是絕對的,團隊的安全意識和文化問題,沒那麼容易改進。細數過去雲安全領域的重大事故會發現,類似的情況比比皆是:犯錯誤的企業,幾乎是在以相當的頻度,不斷重覆自己的錯誤。

遍數行業各家巨頭,亞馬遜雲科技幾乎是唯一一家,把安全文化擺在檯面上來談的公司。

在re:Inforce 2024 美國的開場 Keynote 上,亞馬遜雲科技CISO(首席信息安全官)就聊了亞馬遜雲科技的安全文化,可見對其的重視。

據透露,亞馬遜雲科技的安全團隊直接向 CEO 彙報,這種組織架構已經持續了八年。此外,每週五,CEO、CISO以及各服務團隊有一個固定例會,討論各服務的安全話題。亞馬遜雲科技是一個巨型企業,對於參會的許多人來說,這幾乎是全年唯一的與CEO直接討論產品、業務的機會。

這種越級討論,不僅停留在例會上,也發生在故障處理上。亞馬遜雲科技規定,各服務團隊 leader 對其服務的安全性負直接責任,但在故障發生時,故障發現人有權升級處理。在典型的巨頭企業內,升級處理不僅意味著問題嚴重性被直線升級,也意味著某種習以為常的「公司內部政治」被打破了。而在亞馬遜雲科技,這種升級處理是不設級別上限的。

此外,在安全問題上,亞馬遜雲科技極為強調亞馬遜領導力原則16條中的「主人翁精神(Ownership)」,不允許各部門在工單上踢皮球。

所以從客觀上看,安全事故牽扯到的一系列「大公司病」,確實很少出現在亞馬遜雲科技身上。

亞馬遜雲科技試圖用這種方式,在內部塑造一種安全文化——他們信奉長期主義,認為安全意識需要不斷加強,長期建設。

沒人指望一個良性的文化,就能杜絕所有安全問題,但這是一個良好的基礎,甚至也是當下必須被倡導的。因為隨著生成式 AI 進入生產環節,安全形式只會越來越嚴峻。

安全問題,已成為整個AI圈兒的「Job Zero」

一個最顯著的問題是,大模型把純粹的程序邏輯變成了某種黑盒,這是一個自機器學習技術遺留下來的老問題,叫做AI的可解釋性——即便是模型的構建和訓練者,也無法完全確認,AI 的每一次結果輸出是如何一步步產生的。

這導致黑客很容易圍繞大模型展開攻擊,通過對模型輸入進行干擾,影響輸出。同時,大模型作為新興產物,相關插件的安全性還不夠完善,也很容易被黑客突破。

開放Web應用程序安全項目編製的LLM應用程序十大漏洞關鍵列表對此有過詳細的介紹,比如:

及時注射:以直接、間接的方式,通過巧妙的輸入,導致LLM執行意外操作;

不安全的輸出處理:當LLM 的輸出未經過足夠的安全審查時,就會出現漏洞,暴露後端系統,可能會導致 XXS、CSRF、權限升級或遠程代碼執行等嚴重後果;

訓練數據中毒:篡改LLM訓練數據,引入損害安全性的數據;

拒絕服務模型:攻擊者對LLM進行資源密集型操作,導致服務降班,或極大提高運營商服務成本,有點類似DDos攻擊;

……

如果說,過去的雲安全問題更像地雷,好像只要不踩中,就可以得過且過。那麼今天的安全問題,一旦被利用,都會導致極大的安全風險,根本無法被忽視。在網絡安全領域,生成式 AI 製造問題的速度,幾乎和解決問題的速度相當。

虎嗅過往曾有文章闡述,UIUC的實驗研究表明,使用自主 LLM 代理攻擊網站的總成本約為 9.81 美元,總體成功率為 42.7%,而人工成本據估計可能高達 80 美元。LLM極大地降低了黑客的行動成本,進而導致有LLM加持的網絡攻擊,頻頻出現。

近兩年的一連串人事變動,也能佐證生成式 AI 正在引發越來越廣泛的安全風險:2023年76歲的圖靈獎得主Geoffrey Hinton從Google離職,專注於人工智能風險預警;今年6月,OpenAI 聯合創始人Ilya離職創業,他對媒體表示,這是一家將優先考慮安全性而非「商業壓力」的公司。

事實上,應用生成式 AI 技術最為積極的巨頭,都已經注意到其潛在的安全問題,這是為什麼亞馬遜雲科技今年的 re:Inforce 2024 如此引人關注——作為業界唯一的由雲廠商主辦的安全大會,它們足夠代表當下行業安全問題的領先認知。

亞馬遜雲科技提倡將安全維度的考量,融入產品設計之初。舉個例子,亞馬遜雲科技旗下Graviton4芯片全面加密了高速物理硬件接口,包括DRAM、連接Nitro卡的PCle,以及雙槽位實例中連接第二個Graviton插槽的芯片間鏈路。此外,Graviton4同樣具備指針身份進行驗證,以及對跳轉目標進行識別等能力。過往許多針對芯片的攻擊,都是圍繞這些能力展開的,M1 芯片就曾在此吃過大虧。

但基礎設施運營商一定要認識到,在安全層面的投入,不僅僅要提升防護能力,也要提升在安全環境下的性能表現。性能和安全,不是要廠商在期間做取捨,而是在保證安全的前提下,「既要又要」。

典型案例是 Amazon Nitro Enclave ,過往只能在 CPU 中運行,因此可以支持的任務類型有限。很快,亞馬遜雲科技將官宣對其進行拓展,將其與 ML 加速器和 GPU 無縫集成,以解決兼容性和性能問題。

今天的許多大模型都採用私有化部署的模式,原因是業內廠商對安全的認知並不統一,未能將AI數據與設施運營商徹底隔離。誠如亞馬遜雲科技 CISO Chris Betz在re:Inforce 2024 美國所說,客戶需要一個對安全性有深入投資的合作夥伴,進入一段長期的合作關係。

在接下來的一年內,如果不將安全意識提升到一定高度,相關企業幾乎不會有生存下去的可能——再華麗的技術,也抵不過客戶因各類雲安全事故,不斷降低的信任值。

探索:將部分權利讓渡給 AI

看看行業正在發生的變化就知道了。

就在7月23日,一家初創公司拒絕了Google價值 230 億美元的收購計劃,準備實現 10 億美元的 ARR 並衝擊 IPO。

這家公司叫 Wiz,4位聯合創始人全部曾在以色列情報部隊「8200」服役,也都曾供職過微軟雲安全部門。據矽兔君報導,他們注意到了一個巨大的市場空白:隨著AI時代的到來,現有的安全解決方案多針對本地網絡打造,已經無法滿足日益增長的雲安全需求,安全團隊迫切需要一個統一的工具,來管理和監督所有雲服務器。

因此他們從微軟離職創業,3年融資近20億美元,成為如今熾手可熱的安全新銳企業。

說到底,Wiz 的成功表明,今天的雲安全仍然過度複雜,且正變得越來越複雜。他們僅僅是構建跨多雲的統一管理平台,就快速實現了 1 億美元的年度經常性收入。

那麼,日後如何推進跨多個基礎大模型的安全工作?如何對使用過多種智能輔助工具的代碼,進行審查?

這都是亟待解決的問題。

嘗試著將一部分繁雜工作,逐漸讓渡給 AI ,是目前正在推進的一個工作方向。亞馬遜雲科技透露,他們正在推進利用生成式 AI 提升安全性,比如用 Amazon Q for Developer 生成安全代碼;用Amazon Inspector 分析代碼漏洞並編寫代碼來替換易受攻擊的行;用 Amazon Detective 分析承諾指標,並用清晰的語言描述研究結果。

另外,在企業構建了良好的安全文化和相應的組織架構後,用「鐵面無情」的AI做最後的安全審查者,從而避免員工私自繞過測試和部署流程,或許也是一個可行方案。

總之,人們必須認識到,我們正在經歷一場從物理世界到數字世界的遷徙,而後者的安全工作還遠未做到盡善盡美,這或許是當下唯一的「Job Zero」。

特別策劃