「open」AI的實際作用非常有限?

一貫堅持開源的 Meta 也會被業內人士狂噴。

開放源代碼促進會負責人 Stefano Maffulli 就曾公開斥責 Meta,稱用 「open」 描述 Llama 模型,是在混淆用戶和汙染 「open」。

在大眾的認知中,「open」 通常意味著透明、共享和合作,尤其是在開源軟件領域。然而,在人工智能(AI)領域,「open」 一詞卻帶來了許多模糊性和爭議。事實上,AI 行業資源高度集中,「open」 的真正意義和影響值得深入探討。

那麼,我們究竟該如何理解 「open」 呢?

在一篇發表在權威科學期刊 Nature 上的文章中,科學家們系統地剖析了 「open」 AI 的定義、實質特徵與局限性。

「‘open’ AI 這個術語被廣泛使用,但其實際涵義並不明確。我們發現,當代 AI 系統的開發和應用依賴於高度集中的資源,即便標榜 「open」 的 AI,其透明性、可重用性和可擴展性仍然受到資源壟斷的限制。」研究人員在文章中寫道。

他們通過分析 「open」 AI 的當前生態,探討了其對資源共享、技術創新和市場競爭等的深遠影響,同時呼籲對其經濟政治背景進行更深入的反思和措施介入。

一、什麼是「open」AI?

AI 的定義自其誕生以來就充滿爭議。在 70 多年的歷史中,AI 這個詞被應用於各種不同的技術方法,與其說是一個嚴謹的技術術語,不如說是一種營銷概念和對未來願景的表達。

近年來,AI 的定義傾向於描述基於概率的大型機器學習系統,尤其是生成式 AI,如大語言模型(LLM)。這些系統因其生成自然語言文本或圖像的能力而廣受關注。

類似的,「open」這一概念也在 AI 領域被頻繁誤用和擴展。傳統意義上的「open」源於開源軟件運動,具有透明性、可重用性、公平性的理念特徵,但將這些理念直接應用於現代 AI,特別是生成式 AI 時,面臨著以下挑戰:

  • 模型複雜性與黑箱性:現代 AI 系統由龐大的神經網絡組成,僅公開模型權重和代碼,不足以完全揭示其運作機制。

  • 資源依賴性:這些模型的開發和訓練需要昂貴的計算力和數據,這些資源通常由少數大公司控制。

  • 技術應用的不對等性:「open」 的模型可能會被濫用,而原開發者在這些問題上難以施加影響。

文章指出,當前一些所謂的 「open AI」 模型僅提供部分模型權重或受限制的 API,這種做法更接近「開放洗白」(openwashing),與真正的 open 相去甚遠。

同時,文章強調,即便 AI 系統實現了更大的透明性或可用性,也不意味著行業權力格局會因此發生顯著變化。AI 開發的資源成本(如計算力和數據獲取)仍集中於少數大企業手中,使得市場競爭更加不均衡。

二、「open」AI的優勢與局限

文章作者也對 「open」AI 帶來的三個關鍵優勢進行了逐一剖析,並客觀闡明了其潛力與局限性,指明儘管 「open」AI 提供了關鍵優勢,特別是在資源共享、技術創新和數據使用方面,但這些優勢並未能真正打破由少數大公司主導的行業格局。

1. 透明性

透明性是 「open」AI 最受關注的特性之一。一些 AI 模型會公開訓練數據、權重或相關文檔,允許研究人員驗證系統行為,但透明性本身無法完全解答系統的複雜行為。例如,大模型的「湧現」(emergent)往往難以預測,僅僅知道模型權重或代碼並不能全面理解其運行原理。因此,文章呼籲理性看待透明性的價值,特別是在 AI 系統的行為責任問題上。

2. 可重用性

「open」AI 通常允許第三方在已有的模型或數據基礎上進行再利用。公開許可的數據和模型權重,以及經常使用傳統的開源許可來提供這些數據,為 「open」AI 將對市場競爭產生固有積極影響的說法提供了依據。

然而,市場訪問仍然是一種受限制的資源。即使是有資源的參與者,他們擁有創建大規模模型的資金、人才和數據,也不總是有明確的方法來部署這些模型或確保投資回報,這是由於市場訪問存在重大瓶頸。

3. 可擴展性

「open」AI 的可擴展性表現在其支持用戶基於基礎模型進行微調,從而將模型適配於特定領域或任務。這是公司支持 「open」AI 的關鍵特徵,在很大程度上是因為,「擴展」現成模型的工作也為那些可能想要重新利用微調模型的人提供了免費的產品開發。

擴展 「open」AI 模型意味著從事這項工作的人不會從一張白紙開始。他們採用了一個已經經過艱苦且昂貴的訓練的大模型,並調整其參數,通常在進一步的數據上進行訓練,通常是專門的數據,以適應特定領域或任務的性能。

三、資源與權力分配問題

儘管 「open」AI 這個概念聽起來充滿潛力,但 AI 系統的開發和應用依賴於一系列高度集中的關鍵資源,包括模型、數據、勞動力、算力和開發框架。這些資源不僅決定了技術的可用性,也深刻影響著市場競爭和權力分配的格局。

具體而言,在 「open」AI 的討論中,AI 模型是最直觀的焦點。近年來,像 Meta 的 Llama 3 和 BigScience 的 BLOOM 等 AI 模型雖一直在標榜自身 「open」,但這些 「open」 模型的實際作用卻非常有限。許多模型僅提供 API 接口,並不能讓用戶真正瞭解其內部機制或進行修改。即便是那些較為透明的模型,也依賴於企業獨佔的訓練資源,其他開發者難以複製這些資源,從而無法平等參與競爭。

在 AI 系統中訓練數據同樣至關重要,但許多開源模型並未完全公開其訓練數據的來源和處理方式,這一不透明極大限制了外界對模型的驗證。此外,採集高質量數據往往需要巨大的成本和資源,而這通常只有少數大型企業能夠承擔,這進一步鞏固了它們在行業中的主導地位。

在 AI 領域,除了模型與數據外,勞動力同樣是關鍵資源之一,尤其是訓練和開發這些複雜模型的高技能人才。然而大型科技公司不僅掌握著計算能力和數據資源,同時也主導著 AI 研究和開發所需的頂級人才市場。

與此同時,算力也是一項受壟斷的關鍵資源。AI 訓練需要大量的計算資源,而像英偉達這樣的企業幾乎壟斷了高性能 GPU 市場。即使模型或代碼被公開,運行這些模型的計算成本依然高昂,導致中小型開發者無法參與競爭。一些計算框架(如英偉達的 CUDA)也進一步強化了技術壟斷,使得開源模型仍然依賴於特定的計算生態,限制了其實際應用範圍。

此外,在開發框架方面,一些開發框架諸如 Meta 的 PyTorch 和 Google 的 TensorFlow 雖然是開源的,但它們的設計和控制權掌握在少數大公司手中,這些公司不僅定義了技術標準,還通過構建自己的生態系統進一步鞏固了市場主導地位。

總而言之,「open」AI 雖然在透明度與共享方面具有一定價值,但無法單獨解決 AI 領域權力集中與資源不平等的問題。當前的開放性討論更多地被大公司用作規避監管和爭奪市場的工具,如果想要真正改變現狀則需要有更強有力的措施介入,包括反壟斷執法和數據隱私保護,否則僅僅追求開放性不太可能帶來多大益處。

未來,各方應更加關注 AI 的實際影響,而非僅局限於開放與封閉的概念之間,只有開展多維度的政策和技術實踐才能構建出更公平、更負責任的 AI 生態系統。

本文來自微信公眾號學術頭條,整理:阮文韻