做語料交易平台,Cloudflare要為站長「主持公道」

大模型遭遇數據荒這件事,已經從遙遙領先的預言變成了一個所有AI廠商都不得不面對的難題。為瞭解決這個問題,Google前CEO艾力・施密特更是曾語出驚人,表示AI創業公司可以先通過AI工具盜取知識產權,然後再僱傭律師來處理法律糾紛。但就在AI行業出現「語料危機」的兵荒馬亂里,也有廠商發現了商機。

日前,全球知名的內容分發網絡(CDN)Cloudflare宣佈將在明年推出交易市場,允許AI公司付費獲取網站內容的抓取權限。據Cloudflare方面的描述,網站運營者可以將自己的網站放在這個市場中,如果有AI開發商願意付費購買其內容,則可以向後者提供接口以供抓取網站的內容用於AI大模型的訓練。

進入2024年之後,隨著Common Crawl數據集、The Pile語料庫等開源數據庫的開發殆盡,AI廠商在獲取語料數據這件事上也完全可以用「吃相難看」來形容。例如蘋果、英偉達、OpenAI在訓練大模型時使用了YouTube未經授權的數據,AI獨角獸Anthropic更是直接分佈式拒絕服務攻擊(DDoS)小網站等讓人大跌眼鏡的操作,也開始堂而皇之的出現。

當然,除了這些上不得檯面的玩法之外,業界也在嘗試用「合成數據」來訓練大模型,試圖用這種「左腳踩右腳上天」的模式來使得大模型擺脫對於語料數據的依賴。可惜隨著一篇《Nature》上的論文問世,使用AI生成的數據集訓練大模型會汙染它們的輸出,無法避免「模型崩潰」(model collapse)的缺陷,也讓合成數據這條路徑的未來蒙上了陰影。

如此一來,向內容方索取數據就又變成了AI廠商的唯一選項。現在的情況,是AI廠商對於數據的需求永無止境,但他們需要將有限的預算花在算力、電力、水資源等剛性需求的資源上,以至於「偷數據」就變成了一個降本增效的手段。同時,一般的網站雖然有數據、但也缺乏保護數據的能力。

站在網站站長的角度,一方面自己網站的內容被AI廠商無償抓取,另一方面AI廠商爬蟲進行的高頻次抓取已經與DDoS沒區別了,導致自己還要付出更高的帶寬和流量清洗成本。由此不願付錢的AI廠商與想要將數據賣個好價錢的內容方之間,自然也就產生了不可調和的矛盾。

這時候,雙方都需要一個類似Cloudflare這樣的角色站出來當「球證員」。作為CDN提供商,Cloudflare的競爭力來源於在全球擁有超過152個數據中心,這些數據中心戰略性地分佈在全球各地,以確保其業務覆蓋所有主要地區,再加出色的網絡技術,也使得全世界目前有20%的互聯網流量都經過了該公司的網絡代理。

為了向用戶提供高速網絡服務,Cloudflare建設了一個專用的高容量光纖網絡,用於在全球的數據中心之間傳輸流量,這也使得其能夠完全控制內部和外部流量的路由,以便更有效地管理流量。而為全球中小網站提供一個低成本接入公開網絡的能力,這就是Cloudflare的底氣。

就如同Google提供了一個廣告競價平台,得以讓全球的站長通過經營網站獲得收入一樣,Cloudflare現在就是打算複刻Google曾經的做法,建立一個內容拍賣平台,讓AI廠商像廣告主一樣為他們感興趣的內容付費。畢竟全球1/5的流量會經過Cloudflare的分發網絡,所以也意味著後者確實也擁有類似Google搜索引擎的地位。

與此同時,為了保證這個交易市場得以運行下去,Cloudflare還宣佈為使用其服務的所有網站,包括免費託管在Cloudflare上的網站提供AI審計工具 (Cloudflare AI Audit) ,從而向網站站長報告AI廠商的爬蟲何時訪問網站、抓取數據的IP地址、抓取頻次,以及其他相關數據。

借助AI審計工具,哪些AI廠商嘗試抓取了網站的數據也就變得一目瞭然。並且為了配合這個交易市場,Cloudflare方面表示AI審計工具與目前為站長提供的一鍵屏蔽AI爬蟲功能不同,其提供了更靈活的屏蔽策略。比如說,一旦某網站與OpenAI達成合作,站長就可以單獨為OpenAI的GPTBot提供「綠色通道」。

不得不說,作為業界知名的「賽博菩薩」,Cloudflare確實是想用戶之所想、急用戶之所急,這樣一套組合拳打下去,AI廠商大概率就會乖乖地向網站站長付費了。

本文來自微信公眾號「三易生活」(ID:IT-3eLife),作者:三易菌,36氪經授權發佈。