我們掌控了數據,還是數據支配了我們?

「根據大數據顯示,您的違約風險較高,貸款不予批準。」

隨著社會電子化、數據化進程的推進,各行各業都在進行大數據實踐,我們當下的許多生活經驗也被大數據所形塑。對於普通人而言,「大數據」是一個十分模糊的概念,它代表著某種神秘的權威對與人相關的信息進行了大量的蒐集、分析、計算和預測。

無論它是一個簡單算法邏輯導出的結果,還是由無數參數、變量和權重所調節出來的複雜模型,數據成了許多自動化決策的核心。而大數據的「大」——數據的體量、類別,速度的膨脹——也代表了一種用客觀、科學、全面的方式去詮釋一切社會行為的野心。

從技術層面審視,隨著算力和模型的提升,計算一切並非不可能,語言大模型就是這種「大力出奇蹟」的例子。對計算的追求背後,是對一切數據的渴求。

但從社會層面審視,這種渴求帶來的亦是摩擦和困惑。我們生活的每個瞬間、每個動向彷彿都被監控、分析著,在「大數據」的凝視下,每個人都無處可逃,絕對的「隱私」不複存在。每個人在電子世界里都有一個詳盡的分身,政府、商家、學校、單位通過這個分身對每個人進行標籤、識別、排序,甚至預測、干預和操縱。這究竟將如何深刻地改變我們在世界上存在的方式?

技術倫理學往往從規範的角度去探討對隱私的保護、知情的規則以及數據濫用的危害。但大數據下的社會和技術結構已經發生了相當深刻的變化,舊的倫理框架已經不足以解答我們所面臨的問題。STS(科學、技術與社會)領域的學者們選擇了另外一種方式去審視這個被數據驅動的世界:去尋找技術和人的互動下,社會呈現的樣貌。

數據在社會中的實踐

數據是什麼?是一串串用數據結構組織起來、帶有標籤和分類的數字?是集合了各種類型數據的數據庫?還是對數據進行處理、分析的算法模型?

是,也不是。雖然洞察人-人造物關係的STS學者各自的切入點有所不同,但其共同點在於將數據及其誕生和使用的社會語境聯繫起來。個人、社會組織、社會文化和技術手段之間的交織,形成了所謂的「實踐」(practice)

相對於關注研究數據的實體(或者其電子形態)他們更關注數據是如何「跑」起來的,數據的收集、處理、運算等過程不是單獨的、機械的、客觀的存在,而是在特定的環境、價值指導下,在特定的組織運行中進行的有特定目的的行為。「數據」也因此成了一個動態的概念,承載了不同的意義。

這種多樣性,往往和人們所想像的數據化的社會的體驗完全不同——數據化之後,所有的事情都可以被打通、被計算、形成指令,被一個洞察了一切的大腦指揮。但現實中,不同的數據實踐往往需要大量的溝通、摩擦、商討,數據作為所謂的「邊界對象」(boundary object),成了不同的利益群體斡旋的場所。

以此看來,數據從來都不是一個飄在「雲端」的空中樓閣,而是實實在在的社會互動和實踐。從實踐出發,學者們建立了批判數據研究(Critical Data Studies)的基礎,以此摸清數據在社會中伸展的脈絡。

The Costs of Connection, Nick Couldry/Ulises A.Mejias

Stanford University Press 2019

數據化的社會,社會化的數據

通過將數據實踐而非數據本身作為分析對象,STS學者跳出了社會-技術的二元框架,把物質層面和人的層面結合為整體進行分析和解讀,突出了當下人與技術的交纏關係。在對數據實踐的分析中,他們關注數據帶來的技術、政治、社會和經濟後果,強調社會「數據化」過程中知識、關係和控制結構的重構。

數據化的過程塑造著社會的樣貌,而社會原有的文化、政治、權力、族群關係也通過數據化的過程,被寫進了和數據相關的技術(如自動化、算法和人工智能等)中。數據化因此是一個既被社會塑造也塑造著社會的過程。

意大利社會學家、米蘭大學教授馬西莫·艾羅迪(Massimo Airoldi)借用皮埃爾·布爾迪厄(Pierre Bourdieu)「慣習」(Habitus)一詞來描述這個動態的過程。在布爾迪厄的學說中,慣習由個體在結構中所處的位置塑造,個人通過慣習產生行動。

例如,所處的社會階層塑造了一個人的品位,包括讀什麼書、消費什麼產品,這個人又通過和周邊社會的互動將這種品位和習慣傳播並固化下來。因此,當人們行動和展示能動性時,他們也反映和再生產著社會結構。

同樣的,數據的形成過程是一個具體的、當下的過程,反映了它所在社會的偏見和預設,以及特定的社會權力希望通過這種數據去達成的目的。這些文化、政治的結構性的影響都被寫進了數據中,成了機器「社會化」的一部分。反過來,當特定的數據分類、結構和相應的算法被管理機構和手段採納之後,也相當於不斷地以固定視角對社會現象和人群進行審視和行動,去強化、固化、物質化已有的社會結構。

比如,執法機構有關某個少數族裔存在犯罪高風險的數據源於對特定區域的警力傾斜,警察的種族主義傾向也導致少數族裔被搜身、逮捕的可能性更高,這些傾向被固化為記錄在案的犯罪數據;反過來,這種數據又會進一步指導警察的部署,加強警力的傾斜,將種族主義以客觀的、數據化的形式固化下去。

Machine Habitus, Massimo Airoldi

Polity 2021

需要強調的是,這種互動的過程並不是一蹴而就的,不管是技術還是人,都無法決定社會變遷的軌跡,而是在與具體的管理者、管理規則的互動之中動態演變著。這種互動、演變的過程和數據、技術本身一樣,值得研究和探討。

德國洪堡大學社會學家史提芬·馬烏(Steffen Mau)將目光投向了數據化的一個方面,即社會的「指標化」。在The Metric Society:On the Quantification of the Social(《指標社會:社會的量化》)一書中,馬烏從馬基斯·韋比(Max Weber)對於工具理性的分析出發,洞察了現代社會中數據的一大作用,即製定各種各樣的指標,而指標的存在賦予了各種數據以意義。數據不再是零散的、隨意的數字,而是順著指標的意義獲取了價值取向,並有了尊卑、高下之分。

The Metric Society, Steffen Mau

Polity 2019

例如,一個人每日步行的距離被計步器或者智能設備捕獲後,就成了一個指標,它不再代表一個人的生活軌跡,而是成了彰顯一個人健康水平的數據。這種指標在當下的數據化潮流中被賦予了量化的意義,並被廣泛地用於交流、評價與比較。從個人生活到職業發展,再到生產、消費領域,許多社會功能都圍繞著指標展開,這反映了社會對於效率、理性的追求以及一種新自由主義文化。

而作為一種思維方式和組織方式,指標也在不斷地塑造著社會的形態。它的弊端之一,則是把原本多樣、多維的社會景觀壓平成為二維的、線性的發展模式,並將我們驅趕到追求數據的無盡長路之上。

而美國社會學家瑪里恩·福爾凱德(Marion Fourcade)和基耶安·希利(Kieran Healy)則提出了「序數社會」(Ordinal Society),即當下的社會通過各種各樣的技術手段以及對數據的抽取、歸類、分析、預測等將涵蓋社會和生活各個領域的方方面面數據化、電子化,通過算法和人工智能等技術形式對一切進行相對價值高低的排序。

這種組織方式可以說比「指標」更進一步——它是極度原子化、個人化的,將錯綜複雜的一切打碎,細緻入微地收集每個人的蛛絲馬跡,為用戶獲取個性化的推薦、個人化的分數和風險,並刻上價簽,投入市場之中。

保險價格、貸款風險、個人信用等方面的運作都將超出常人能夠理解的規則,圍繞更加不透明、不平等的數據遊戲規則展開——你的GPS蹤跡為何能決定你的保費高低?你的消費記錄又怎麼影響你的工作機會?一切都是序數社會的排序基礎,而這種排序的依據本身滲透了特定的價值取向和規則。

The Ordinal Society

Marion Fourcade/Kieran Healy

Harvard University Press 2024

數據化與社會的深刻變遷改變了社會的組織形式,甚至改變了我們對生活以及世界的基本預設和理解方式。我們固然可以通過這些概念理解社會變化的樣貌以及過程,甚至批判數據社會的隱憂,但面對數據化的洶湧浪潮,又該怎麼去尋找具體的路線圖呢?或者,在數據社會的背景下去理解當下我們對隱私、不平等的擔憂,是否會有新的解答方式?

「雲倫理」

除了獲取新的技術手段、技術-社會互動機制,也需要革新人們對於倫理導向問題的思考。數據的增長並不僅僅是數據量的變化,它代表的是一種新的敘事,代表著視角、可能性和優先級的變化,以及這種變化所反映的社會力量的消長。

數據蒐集能力和處理能力的增長,代表著一種中心的、抽像的,往往也是強大的敘事,但這樣的視角並不能涵蓋一切。如果能通過手機信號去蒐集人口流動的數據,是否社區和基層的訪問就不再重要?那麼那些不用手機或一家人共用手機的人是否就被忽視了?這種忽視是否會帶來甚至加強結構性的不公(例如,手機信號和基礎設施不普及的地方在這種數據敘事中就成了空白,這種數據上的空白又會影響到公共設施和基礎建設的分配)

當然,你可以用更多、更全面的數據蒐集乃至天網般的覆蓋去試圖解決這個問題,但這並不能解決數據內涵的價值傾向,以及解釋「何為現實」。用杜蘭大學教授、政治地理學專業出身的技術倫理學家露易絲·阿摩亞(Louise Amoore)的話來講,數據和算法本身成了一個政治倫理的實體,攜帶著特定的「價值、預設和主張」去理解這個世界,建立常理和規則,乃至判斷善惡。

阿摩亞在Cloud Ethics:Algorithms and the Attributes of Ourselves and Others(《雲倫理:我們和其餘一切的算法和因子》)一書中指出,我們應該從數據和算法及其催生的社會關係和聯結中去探討倫理。

Cloud Ethics, Louise Amoore

Duke University Press 2020

總的來講,數據和算法所生產的社會現實就是把不確定性確定化,把混亂的進行優化。然而問題在於,這種詮釋世界的方式究竟意味著什麼?例如,為什麼特定數據是重要的?怎樣的數據構成了所謂的「基準真值」(ground truth),代表了機器所預設的真實世界?是帶標籤的圖片,還是整個互聯網上的語言?

阿摩亞使用了攝影術語中的「光圈」(aperture)一詞來隱喻數據所反映的真實。在特定的光圈之下,前景和背景被模糊,只有中景被清晰地看到。在數據世界里,這就是選擇數據測算代理的過程。

選擇用怎樣的數據去代表想要被計算的現實決定了這個數據和算法的願景,而代價就是忽略了這個數據的來龍去脈,或者將之視作背景、預設。就像前文所述,利用手機信號去預測人口流動,就是預設了人和手機之間粗略的一對一的關係。在特定的場景下,這種數據的價值是巨大的;然而,數據的「光圈」也使其難以關注到更微小、更本地的關係和規律。

因此,去看待數據社會,需要跳出數字或數據庫的圈定,在特定社會語境中考察數據的實踐。STS學者為我們揭示了數據化的過程如何塑造了社會結構和人的行動,將社會關係寫入數據也會影響社會的組織形式和我們對世界的理解方式。

更需要我們警醒的是,數據和算法不僅是中立的工具,還是攜帶著特定價值取向的政治倫理實體,我們需要審視數據和算法所構建的社會現實,探討它們背後的價值、預設和主張,以及這種詮釋方式對我們的意義。

參考文獻

AIROLDI M.Machine Habitus:Toward a Sociology of Algorithms[M].New Jersey:John Wiley&Sons,2021.

AMOORE L.Cloud Ethics:Algorithms and the Attributes of Ourselves and Others[M].Durham:Duke University Press,2020.

FOURCADE M,KIERAN H.The Ordinal Society[M].Cambridge:Harvard University Press,2024.

FOURCADE Marion,KIERAN H.Classification situations:Life-chances in the neoliberal era[J].Accounting,Organizations and Society,2013,38(8):559-572.

HOEYER K.Data Paradoxes:The Politics of Intensified Data Sourcing in Contemporary Healthcare[M].Cambridge:MIT Press,2023.

MAU S.The Metric Society:On the Quantification of the Social[M].New Jersey:John Wiley&Sons,2019.

本文來自微信公眾號:信睿週報 (ID:TheThinker_CITIC),原載於《信睿週報》第126期,作者:李子(哥倫比亞大學醫學院醫學人文系)