人工智能的「歧視」:「她數據」在算法運行中隱形

縱觀人類的發展史,每一次科技進步都將對性別平等產生深刻影響。尤其是當下,人們對於借助人工智能技術快速發展來彌合性別不平等寄予厚望。

但很多人沒想過,人工智能技術本身是客觀中立、不存在「算法歧視」「性別偏見的嗎?

維珍尼亞大學計算機科學專業教授在測試圖像識別軟件時曾發現,人臉識別系統會將廚房圖片中的男性識別為女性;在烹飪和體育活動方面,用搜索引擎搜索出來的圖片也存在明顯的偏向性,如烹飪形象與女性相關,而體育形象則多為男性……

這些社會活動中的性別「刻板印象」,折現出算法本身的「性別偏見」。作為人工智能的核心要素,算法通過解決問題的邏輯規則,將數據轉化為決策或預測。而在從數據運行到結果呈現,算法過程的每個環節都可能存在社會偏見,「性別偏見」往往被忽視卻又真實存在。

如何消除算法中的「性別偏見」?如何平衡性別平等與個性化推薦?是人工智能發展過程中需要解決的倫理問題。

女性的「隱形」與「缺失」

數據是算法運行的基礎,更是人工智能學習成長的「養料」。但實際上,當前的數據更偏向男性,在數據採集環節就可能埋下性別偏差的「種子」。

例如,美國加利福尼亞大學、華盛頓大學的研究人員在《柳葉刀·公共衛生》雜誌上刊發的研究結果顯示,女性遭受的非致命性疾病未得到足夠重視。其中一項原因是,由於歷史和社會原因,臨床試驗中納入女性數據較少

這意味著,當此類數據被「投喂」給AI,並用於醫療領域時,針對女性的疾病診斷、治療和預防策略可能並不完全準確和有效,AI提供的決策參考也會存在偏差。

圖源:pexels圖源:pexels

域奇百科也曾被指出在內容的質與量上存在性別偏差,其中女性條目數量佔比不到五分之一。聯合國教科文組織發起#Wiki4Women倡議,通過創建、編輯和翻譯域奇百科上的女性簡介和列表,改善百科中性別失衡的情況。這一舉措恰恰證明,數據世界中的女性「隱形」與「缺失」。

算法運行中同樣存在性別偏差的風險,且隱蔽性更強,這往往體現在內容推薦層面。學者丹恩鬆在論文《算法性別歧視的認定與法律規製——以消費領域為例》中表示,算法設計者直接或間接、顯性或隱性的性別主觀思想,會直接反映到算法之中。具體表現為,算法通過一套內生的「歧視性」運算流程,對所收集的消費者數據進行分析, 並做出針對不同性別的不同商品推薦、價格標籤等行為。

中華女子學院社會學系副教授周旅軍則舉例表示,在算法運行過程中,AI可能會向女性用戶更多推薦美容、育兒類內容,而向男性用戶更多推薦科技、體育等內容,看似基於用戶興趣,實則可能加深性別分化。

人工智能行業的性別結構比例差異,也被部分學者認為是造成性別歧視的原因之一。

《2024全球性別平等報告》顯示,儘管自2016年以來,女性在STEM(科學、技術、工程、數學領域)中的比例逐年增加,但僅佔比28.2%,在STEM相關的行業比例均低於男性,且在STEM職業中的晉陞難度更大。

另據聯合國婦女署和瑪娜基金會聯合發佈的《促進人工智能算法性別平等》報告,58%的人工智能算法從業者不知道算法當中存在性別偏見問題,73%從業者不知道存在專門針對女性的惡意算法。

圖源:pexels圖源:pexels

對此,信也科技首席科學家王春平告訴《IT時報》記者,首先需要從研發者的意識與環境培養開始。例如,企業內部提供完善針對人工智能領域或數字化應用相關的培訓課程,包括業務場景、算法學習、工程化落地,開放給所有職位的員工,並且會儘可能地幫助公司內部對於人工智能算法有興趣的女性員工參與一些實驗性的創新的項目。

在求職層面,保障女性員工獲得公平的職業機會,鼓勵女性工程師參與關鍵算法崗位,營造更加平等的職場環境,並有意識消除算法工程師們的性別偏見,對於人工智能算法在應用中儘可能實現性別平等是有益的。

「偏見」與「偏好」難以界定

在使用電商App時,被推薦給男性用戶與女性用戶的內容大不相同,在價格方面也會有所偏差,這便是個性化推薦的結果。而做到精準推送的背後,是一個個貼在消費者身上的標籤。

一位電商算法從業者向《IT時報》記者透露,性別、年齡、職業、地區、家庭等屬於基礎標籤,是算法推薦的核心基礎;上面一層才是消費水平、偏好、場景需求等行為標籤,這類標籤會根據用戶真實使用情況進行動態輪換,達到精準推送的效果。

「目前,人工智能算法的主要範式是由一個目標函數驅動、逐漸優化,從而得到模型。」上海軟件中心人工智能部副部長馬澤宇告訴《IT時報》記者,在這過程中,很多時候並沒有將一些用戶的元信息考慮進去。

例如,一個商品價格優惠的智能推薦算法,如果其目標函數是盈利最大化,就很有可能會出現不同性別區別對待的現象。從逐利的角度看,這是最優的方法,但是在倫理上,就很容易隱藏性別歧視問題。

那麼,建立在性別這一基礎標籤上的精準推送,究竟屬於「偏好」還是「偏見」?

在馬澤宇看來,具體問題需要具體分析。若從經濟角度來看,商家根據算法,針對不同性別消費者進行產品推薦與定價,是一種銷售策略,也是市場自由交易的行為。但因性別衍生出的「大數據殺熟」等情況,則違背公平交易和消費者知情權等原則,這就需要法律和社會研究進行界定是否存在「性別偏見」。

很多時候,尤其是在商業決策中,我們很難判定算法在‘偏好’與‘偏見’之間的界限。」王春平告訴記者,如果企業觀察到「女性」和「購買力」的相關性,應當進一步挖掘表面性別差異背後的實質因素,實現商業利益和性別平等的平衡。信也集團和浙江大學在這方面進行了研究,希望從技術角度出發,從帶有偏見的數據中學習公平性表徵,進一步探索算法的性別歧視治理。

穿透「算法黑箱」的多方治理

性別話題如同天秤的兩端,要讓天秤保持平衡,就需要從多方面採取措施。法規政策方面,在科技飛速向前發展的當下,儘管法律法規具有一定的滯後性,但包括中國在內的很多國家努力對現行法律進行完善,將性別平等觀念納入數字化治理政策中。

圖源:unsplash圖源:unsplash

例如,在上文提到的消費場景中,根據《中華人民共和國電子商務法》第十八條規定:電子商務經營者根據消費者的興趣愛好、消費習慣等特徵向其提供商品或者服務的搜索結果的,應當同時向該消費者提供不針對其個人特徵的選項。其中,明確的個人特徵就包括性別。

2023年8月15日起實施的《生成式人工智能服務管理暫行辦法》也明確規定,在算法設計、訓練數據選擇、模型生成和優化、提供服務等過程中,採取有效措施防止產生民族、信仰、國別、地域、性別、年齡、職業、健康等歧視。

在監管層面,馬澤宇向記者表示,呼籲相關監管部門對人工智能算法和應用進行治理和測評,建立健全AI系統性別審計機制。

具體可以分為兩種模式,一是基於算法本身的優化,其中可能涉及關於算法目標函數和元數據信息的融合;另一種則是監管算法的完善,可以使用統計學方法,如假設檢驗,設定某種性別場景,對大模型進行多輪測試,統計出現性別歧視問題的數據,定量觀測是否存在算法偏見的現象。

王春平對《IT時報》記者表示,在算法的創新開發過程中,作為人工智能算法工程師如果擁有正確的價值觀,就能儘可能提前審視並察覺歧視偏見的存在,不斷更新算法以調整它帶來的問題,這是作為算法開發者的使命與責任,也是人工智能算法發展的重要前提。

技術層面,王春平認為,目前很多頂尖公司都開發了工具包和框架,如IBM AI Fairness 360、微軟Fairlearn等。但挑戰在於,這些工具須與具體業務場景深度結合,才能有效應用。

她對此建議,在預處理階段,可以進行針對性的數據重采樣,平衡性別、人種等數據的分佈;在模型訓練階段,基於因果推理理論,通過反事實分析剔除性別與能力的虛假關聯,尋找與期望預測結果擁有直接因果關係的因素;或者通過創新性地構造特徵表徵空間、損失函數中引入群體公平性指標約束,抑制某些帶有偏見的因素帶來差異。對於已經成型的模型,也可以在後處理階段針對不同群體設置差異化決策閾值,補償歷史數據偏差。

本文來自微信公眾號「IT時報」(ID:vittimes),作者:沈毅斌,編輯:錢立富 孫妍,36氪經授權發佈。