巨頭的數據壟斷,正在讓互聯網平台「垃圾化」

數據化的社會,對我們到底意味著什麼?很多時候,打開瀏覽器的那一瞬間,剛剛搜過的商品、訪問過的網站或者在社交媒體上黏貼過的內容,都會一覽無餘地出現在邊欄。有時候,我們不禁懷疑:手機是否在全天候地監聽我們?到底有多少數據被技術巨頭所掌握?

Data Enclaves,KeanBirch

Palgrave Macmillan 2023

這背後是大量的、無孔不入的數據收集,精確的數據挖掘,以及建立在巨量數據基礎上的人工智能的飛速發展。所謂「大數據」,是一種量變引起質變的積累,因此當下的技術戰爭也成了數據的戰爭。技術的發展依賴著更多種類、更高質量的數據,除了用於訓練大模型的文字和圖片,還有各種傳感器和終端所生產的數據——每個人在互聯網上的瀏覽數據、地理定位數據、醫療健康數據等。各式各樣的個人數據是當下數字經濟的關鍵,甚至是最重要的資源。

Machine Learners,AdrianMackenzie

The MIT Press2017

但從政治經濟學和STS的角度來看,量變引起的質變並不僅僅體現在技術的「內部」,即模型的訓練上。當下的STS學者繼承這個學科分支將技術與社會作為一個綜合整體來分析的傳統,對與數據的生產和蒐集相關的社會關係進行了更深、更廣的挖掘。

從縱向來看,阿德里·麥肯齊(Adrian MacKenzie)[1]和弗羅萊恩·嘉頓(Florian Jaton)[2]等學者從人類學的角度審視數據和算法模型的生產鏈條,解析了「向量化」(vectorization)等各種技術原理對於下遊技術和應用發展的影響。而從橫向出發,另一部分學者結合了技術分析的政治經濟學,為我們提供了一個從更全面的角度理解數據化社會的圖景。數據的收集和流通、數據的歸屬,乃至數據的呈現,整個體系的遊戲規則都在經歷著十分劇烈的變化。

The Constitution of Algorithms

Florian Jaton, The MIT Press 2021

加拿大政治經濟學家堅尼·貝奇(Kean Birch)2023年出版的著作Data Enclaves(《數據飛地》)就將目光放在了那些掌握數據的巨頭身上。他認為,在過去20年互聯網飛速發展的過程中,大型科技公司集中了大量的數據資源,且這些資源被它們所佔據,很大程度上不受市場或者監管規則的影響,阻礙了流通和交換。這些數據和科技巨頭的政治經濟資源一起,形成了所謂的「數據飛地」。

「數據飛地」是什麼?

「飛地」一開始是指一塊位於某政權管轄範圍內但又不受其控制的土地,例如被意大利包圍的小國聖馬力諾。這個概念也被引申到其他社會和地理概念上,用於描寫一個自成一體的人群或者聚落。貝奇使用「數據飛地」這一概念去描述科技巨頭自成一體的數據生態:這些公司收集大量數據,但過程極其不透明,其他人或組織無法獲取,更無從檢查、監管。這種封閉但體量巨大的數據系統不僅是科技巨頭最重要的財產,也是其壟斷並且主導市場和資本動作的關鍵。

Seeing like a State, James C.Scott

Yale University Press 2020

貝奇在書中從數據本身開始,介紹了數據如何被科技巨頭圈作飛地的過程。在第二章,他詳細地介紹了個人數據領域,並借用了人類學家占士·史葛(James C.Scott)的statecraft概念(即政權為了管理對社會進行的抽像和計算)[3],將其擴展為techcraft,即如何像一個科技公司一樣去看待個人數據。

如果不對數據做出詮釋,那麼數據就只是一些無用的、散佈的數字信號。而這個過程,就是所謂「挖掘」數據產生對於這些商業公司的潛在價值的過程,也是對每個人的生活進行「可視化」、測量和估值的過程。這個過程包括建立技術標準、測量手段和指標以及商業邏輯等,均指向盈利。

在接下來的一章中,貝奇解釋了為何這種盈利不是一個市場導向的過程。因為海量的個人數據並不具有交換價值,它們不是商品,而是資產——一個人住在哪裡、買了多少東西,這些都只是事實信息,並不是具有知識產權的內容;真正產生價值的是這些信息和科技公司的技術手段之間的互動,是這些互動促成了用戶的點擊、注意力資源的消耗、購買行為等。

用戶數據作為資產,也包括了科技公司對數據所擁有的合法權利、知識主張、管理實踐、合約等,這一整套技術經濟配置(configuration)塑造了這些科技公司對數據的強大控制,並通過各種估值手段產生了實際的價值(第四章)

第五章聚焦貝奇的重要論點:數據飛地的形成。有了數據還不夠,科技公司的運作模式是將這些數據都圈進自己的領域,製造所謂的數據生態,包括技術設備、平台、用戶、開發人員和支付系統,以及附帶的法律合約、責權和標準等。這一切都是為了幫助科技巨頭吸引其他企業、用戶、消費者、開發人員等,依靠這個生態系統生存,並不斷鞏固其市場主導地位。這個生態系統製造了相當多或明或暗的壁壘,每個參與者在享受便利的同時都受其束縛。

貝奇用Google公司旗下的DoubleClick廣告系統作為本書中為數不多的案例之一,分析了這個系統如何讓你一打開瀏覽器就能看到各種「個性化」的廣告——它掌握了大量的用戶信息,並且能通過瀏覽器插件「認出」用戶,觸發自動競價,將價高者顯示在用戶的瀏覽器中。廣告投放商只能通過DoubleClick觸及用戶,而且這個系統還在不斷地通過對個人信息的掌握吞併上下遊,主導網站廣告瀏覽生態。

「寄生創新」及其後果

毫無疑問,貝奇對於科技巨頭所製造的數據飛地持批判態度。他使用了「寄生創新」(parasitic innovation)這個概念來定義用數據飛地去主導市場、避免競爭、削弱競爭對手的戰略企圖。結合傳統的政治經濟學理論,他認為這種寄生創新亦是一種「尋租」(rent seeking)行為,即用非生產性的方式來增加自己的財富,而不是通過創造新的價值或財富來獲取經濟利益。

誠然,這些數據收集技術都是技術創新,但其創造的壁壘以及在此之上誕生的生態系統都並非一種自由、透明的市場交換,而是想方設法搾取超額利潤的行為。傳統意義上的尋租通過遊說政府、製定保護政策等方式進行,而貝奇認為,科技巨頭之所以能夠為所欲為,是因為通過數據生態系統所呈現出來的這種壟斷事實上也阻礙了市場的交換,在此,市場規則不再適用,被由科技巨頭製定的規則和技術標準所取代。

這種寄生創新與平台經濟誕生初期的初始模式有關:風險投資方支持的初創企業用技術手段去製造或者撬動一個新的需求,去探索所謂的「紅海」,去搶佔用戶、開發者和供應鏈,目標都是獨佔某個市場需求,整合生態上下遊,最後彷彿「寄生」在這些資源上一般,達到控制的目的。

在這個過程中,科技公司得以搾取新的資源價值,實現營收,並且將成本轉嫁(比如,用所謂創新的手段去規避監管,平台勞工即為一例)。其控制的能力來自對於信息和數據的單方面、不透明的控制,原有的市場受到侵蝕,並被科技巨頭自己製定規則的生態系統所取代,而這些科技巨頭對自己的模型和數據來源無不諱莫如深;同時,數據監管的空白也給了這些科技公司以可乘之機。

那麼,寄生創新的後果是什麼?除了傳統的壟斷效應帶來的成本上升、用戶利益受損等後果,貝奇亦談到侵佔和圈攏數據的過程是一個反身的過程。

數據和相應的數據收集技術會和用戶互動,數據塑造著每個人的用戶身份,用戶也因此會被這個系統所影響:個體或者說消費者不再是市場思維的中心,信息成了最主要的元素,經過技術的構建和包裝的信息引導、激勵人們,使之按照這些數據所圈定的方式產生行動;這些行動變成數據,反過來又鞏固了數據系統本身,人們亦會受信息影響,改變自己的行為去和系統進行對抗,那麼系統收集到的數據就不再能夠反映人們的需求了。

另一個後果被貝奇稱為「垃圾化」(enshittification),這是一個當下比較流行的概念,援引自技術批評家科里·多克特羅(Cory Doctorow):平台聚集免費用戶,收割他們的數據;同時,平台為了吸引廣告商,降低用戶體驗(比如推送廣告),並向廣告主收取大量費用(用數據飛地實際地「佔有」了這些用戶),此時用戶被困在平台上無處可去,除非下一個平台重覆此類過程。

用戶體驗的降低和用戶流失讓平台上的各方不得不去投機取巧,假造數據,吹噓價值,從而導致數據的價值進一步坍塌,平台的可用性進一步降低。

貝奇認為,這些過程最終將擾亂市場,且沒有為用戶帶來實質性的好處,唯一的結果是讓平台的權力和影響力過度膨脹。他認為,數據飛地的一大悖論就是,數據的社會價值唯有在開放、共享的環境中才能得以施展(例如「開放科學」等嘗試),但對科技巨頭來說,唯有將數據圈為「飛地」才能更好地為他們帶來利潤。

因此,數據為誰所有,為誰所用,通過怎樣的機制發揮作用,將會是下一個階段各方「爭鬥」的焦點。對於個人數據,應該要有更加創新的管理方式,以便重新定義數據歸屬和使用的模式;除了保護隱私等比較迫切的需求,也應該充分考慮數據和數據收集的社會影響。

「數據殖民」:數據到底是資產還是基礎設施?

對於科技公司的大肆擴張以及數據化、平台化趨勢,當下STS學界也有相當多的探討,其中亦不乏肖珊娜·祖博夫(Shoshana Zuboff)的The Age of Surveillance Capitalism(《監視資本主義時代》)[4]這種「出圈」的作品。

不過,從政治經濟學角度切入,用一個審視國家、市場和企業的視角來審視數據和技術,的確啟發了人們從一個更基礎、更宏觀的角度去理解平台。監視行為本身固然重要,但「監視」——數據的收集和處理——僅僅是對科技巨頭的行為的一種詮釋。在巨量數據驅使下的逐利和割據決定了技術公司的經濟和技術設計邏輯,「監視」或許只是其帶來的一個後果。

The Age of Surveillance Capitalism

Shoshana Zuboff, PublicAffairs 2019

和數據飛地有異曲同工之妙的提法是「數據殖民」(data colonialism)[5]。倫敦政治經濟學院的尼克·庫爾德利(Nick Couldry)和烏利塞斯·梅加斯(Ulises A.Mejias)使用殖民主義的框架來探討當下的數據收集現象。歷史上,宗主國通過掠奪殖民地資源,形成了工業資本主義的原始積累,而當下對於數據的掠奪與此類似:我們生活和關係的方方面面都被數據的收割所「搶佔」,不過將新大陸轉換為資源與市場罷了。

而數據殖民的關鍵在於這種關係是非常不平等的,我們和技術巨頭是被掠奪者、被殖民者和掠奪者、統治者的關係。我們對技術手段形成依賴,無法抵禦這種剝削關係的存在。數據殖民和數據飛地不同的一點,在於其對意識形態的製造——個人化、數據化、連接等成了當下世界的重要價值,但這些價值的流行與技術巨頭的粉飾分不開。

雖然貝奇在書中也有探討「數據的價值」,並且說明了它的社會價值並不等同於其資產價值等,但對於這種價值和當下新自由主義社會的價值取向的關係,貝奇並未予以闡明。

The Costs of Connection

Nick Couldry, Ulises A.Mejias

Stanford University Press2019

另外一個剖析的角度是技術手段的社會機理。相當多的STS學者都將當下的技術平台納入基礎設施的層面予以思考,因為基礎設施使人們進行社會經濟、交易活動變得可能,也深刻地影響著各方的行為模式。然而,基礎設施是如何建立的,這其中有著怎樣的社會角力,最後將落實成為怎樣的形態,《數據飛地》並未做詳細的梳理。

STS學界對於「實踐」的考證和分析,即什麼構成了數據實踐,需要借由更偏實證的研究去探討。一些歷史著作或許能給我們提供參考——比如,美國保險業起初是怎麼用數據去構建風險的[6],各種金融機構以及金融職業對有限數據的收集和提取,以及各種推測和計算中摻雜著政治和文化帶來的偏見與陰差陽錯的決策。放到今天的數據社會,類似的摸索和角力必然會以另外一種形態產生,最後亦會影響技術的形態。政治經濟學與技術人類學的結合,或許會給我們提供更多新的洞見。

參考文獻

[1]MACKENZIE A.Machine Learners:Archaeology of a Data Practice[M].Cambridge:The MIT Press,2017.

[2]JATON F.The Constitution of Algorithms:Ground-Truthing,Programming,Formulating[M].Cambridge:The MIT Press,2020.

[3]SCO湯臣 C J.Seeing Like a State:How Certain Schemes to Improve the Human Condition Have Failed[M].New Haven;London:Yale University Press,2020.

[4]ZUBOFF S.The Age of Surveillance Capitalism:The Fight for a Human Future at the New Frontier of Power[M]//Social Theory Re-wired.London:Routledge,2023:203-213.

[5]COULDRY N,MEJIAS U A.The Costs of Connection:How Data are Colonizing Human Life and Appropriating it for Capitalism[M].Redwood City:Stanford University Press,2020.

[6]BOUK D.How Our Days Became Numbered:Risk and the Rise of the Statistical Individual[M].Chicago:University of Chicago Press,2019.

本文來自微信公眾號:信睿週報 (ID:TheThinker_CITIC),作者:李子(哥倫比亞大學醫學院醫學人文系),原載於《信睿週報》第130期,原題為《數據社會的新遊戲規則——談堅尼·貝奇的〈數據飛地〉》