Data for Good:我們希望演算法做對什麼?

  • 余貞誼|高雄醫學大學性別研究所 助理教授

Robert Kowalski於1979年以簡潔的運算式——Algorithm = Logic + Control——說明演算法的組成和運作:邏輯元素指的是一種用來解決問題的知識,它確立這個演算法要做什麼(What is to be done);控制元素指的是決定用以解決問題的策略(How it is to be done),並以此來形塑演算法的效能。從這雙元素的相互配合中,實可見電腦運算如Bassett(2012:120-121)所言,是一種科技—文化政治(techno-cultural politics)。要理解軟體是如何運作的,並不只需要考慮其邏輯符碼,還要探索控制層面,即決定它怎麼界定問題、衡鑑問題、以及解決問題的方法,才能看見軟體運作、影響的程度和侷限。

知曉演算法的運作組成,同時也意味著,把任務交託給演算法,並不等於讓人類責任止步。反之,演算法中始終鑲嵌著的科技文化政治(如:我們如何意識到這是個需要解決的問題?在思考解決方案過程中挾帶著什麼樣的假設與視角?),會參與形塑出演算法的效用和潛能,進而改變或強化社會的秩序。因此,對於演算法的評估,除了考慮其效能之外,無可迴避的也需審視,它是否對社會有益?

Data for Good?

然而,什麼才叫做對社會有益?深度學習研究團隊Google Brain的研究員Sara Hooker(2018)指出,用數據謀善(data for good)的說法,對技術實踐者來說並不精確,因為其並未說明所謂的「好」究竟是什麼。一般普遍認定為好的數據計畫的四個標準,包括數據計畫的最終接受者是非營利組織或政府單位、由熟練的志願者開發和交付數據產品、免費為組織/個人提供數據工具、提供教育訓練來增進弱勢社群的數據能力等,並不足以清楚說明或反映其真實效用。比如,倚賴志願者雖是架接技術鴻溝的有力方式,但志願者能夠投注的時間經常是不穩定的,導致其生產出來的數據產品未必能直接或永續採用,且能夠引起志願者興趣的議題分布也不均等(如最新穎的題材最容易受到青睞);或者即便大公司為非營利組織提供了免費的數據工具,但這些組織往往也欠缺相應的技術能力,因而無法激發出更有意義的參與模式。

行為帶有權力結構分析會進入惡性迴圈 圖片來源:《Meet the Feedback Loop

針對Hooker呼籲需有更嚴謹的語言來描述何謂好的數據工作,D’Ignazio與Klein(2020:41-44)推進數據計畫的倫理理想,轉而以「用數據來共同解放」(data for co-liberation)作為數據計畫的終極目標,認為好的數據工作需要體認到數據和演算法是如何根植在統治的矩陣之中(如表1),才有可能讓數據工作去挑戰權力結構和系統的根源,以帶來終結壓迫的解放結果。

結構領域
組織壓迫和政策
規訓領域
治理者和管理者壓迫:
法律和政策透過科層加以應用和執行
霸權領域
流通的壓迫理念:
文化和媒體
人際領域
壓迫的個人經驗
表 1:統治矩陣的四個領域(D’Ignazio & Klein,2020:42)

數據計畫根植於統治矩陣,所謂何意?D’Ignazio與Klein(2020:28)從PredPol的故事開始說起。PredPol是一個以過往的犯罪數據做為訓練數據來預測巡邏警力該如何有效配置的演算法。這會有什麼問題嗎?兩位作者先帶領我們停下來思考「數據」一詞。她們認為,「數據」此詞具有一種修辭的目的,意指將具有爭議的資訊轉化為一種證據的基礎,以做出後續的宣稱。在這個演算法例子中,犯罪資料之所以能成為可被信任的數據,是由規訓領域加以支撐(因我們信賴法治科層系統的正當性)。然而,這些犯罪數據的由來,往往是因為有色人種被污名化為潛在罪犯,因而其所處的街區總是不成比例的被安置較多警力而造成的(亦即,犯罪率較低的區域,不是源於其沒有發生犯罪行為,而是由於佈置較少的巡邏警力,因而這些犯罪行為較不容易被警察看見、納入紀錄)。因此,這些犯罪數據的產製事實上是根植於霸權領域的歧視理念。而當我們以此數據做為預測系統的訓練集,就會形成如O’Neil所說的惡性循環迴圈(pernicious feedback loop)(轉引自D’Ignazio與Klein,2020:28),既反映了過去的種族歧視行動,也放大了種族歧視的效應,使其轉進結構領域和人際領域,再度造成了壓迫力量。

數據與權力
圖片來源:handshake low poly blue
用數據來挑戰權力

當我們意識到,數據工作實為一處於統治矩陣的權力事業時,接連而來的,就是我們該以什麼樣的方式去挑戰和改變這樣的權力運作?或者更精確的問,我們希望數據工作的目標,是去反映出既存的權力樣態,還是更進一步的採取行動來為社會謀善?而所謂謀善行動是否毫無疑義的具有共識?我們可以從許多有啟發的例子來思考這個問題。

從目前的數據工作計畫來看,我們可以將其性質約略分成照妖鏡和過濾器。前者如IBM 於印度的Nishtha Madaan團隊(2018)對曼布克獎(Man Booker Prize)得獎小說中的性別刻板印象之分析。他們針對1969年至2017年間入圍該獎項的書籍(共275部小說),從Goodreads網站收集關於這些小說的描述和評論,發現其中普遍存在著性別偏見和刻板印象,比如女性角色被提及的次數少於男性角色;用來描述男性的形容詞是富有的,描述女性的則為美麗的、具有吸引力的;男性角色的人設是有權力的,女性角色則顯露為有所憂懼;男性角色的職業地位高於女性,多為醫生、科學家、董事長,女性則為教師、護士、妓女。又如Emma A. Jane(2018)收集了線上性別仇恨的性挑釁、強暴威脅和攻擊語言的例子,透過運算程式集結成「隨機強暴威脅產生器」(The Random Rape Threat Generator,RRTG),可產生800億種獨特的強暴威脅和性羞辱、性辱罵的文字。這兩個例子,都宛若照妖鏡的存在,藉由數據工作來揭露了既存的社會秩序,前者看見了小說所反映的社會性別偏見,後者看見了性別仇恨的語言總是與強暴文化交織在一起的現象。

權力在性別面向如何運作
圖片來源:Young woman with strong muscled arms

那何謂過濾器?我們可以將眼光放回到台灣的例子。第二屆性別暴力防治駭客松(2016/12/03-04)中的作品「Poly you」,以打造性別友善環境為發想,開發 Google Extension 套件,能將網路文本中含有性別歧視標籤的語句,置換為中性用語詞彙,藉此讓網路上的閱聽眾能減少面對性別歧視和暴力的噪音,並讓性別歧視標籤於社群傳播中消音。同場活動的另一個作品「Go home」,則是以過濾危險地點的方式來打造預防性暴力跟蹤騷擾的App,將性別暴力的犯罪地點做成地圖熱點,讓使用者在回家的路上能避開這些危險地,規劃出一條安全回家的路線。這兩個例子都企圖作為一個篩網,前者篩去性別歧視的語言,後者篩去性別暴力的潛在威脅,藉此打造出性別友善的環境。

從挑戰權力的向度來看,照妖鏡的目標是反映出既存的社會性別秩序,讓我們看見權力之傾斜;過濾器的目標則是用行動謀善,希望能藉此篩出更友善的社會。然而,如此的謀善行動是否為具有共識的善,卻仍有著不同的遲疑聲音。比如,當性別歧視語言被演算法篩去並置換後,是否就意味著性別歧視消失了(可以想見當這樣的服務普及後,可能會有新的可閃躲偵測的性別仇恨語言出現)?當我們從女性用路人的角度來思索預防性暴力的解方,而未去挑戰處於更根源統治矩陣中的壓迫力量時,是否真能帶來根本的解放?D’Ignazio與Klein(2020:86-87)便曾指出,我們的數據工作有可能在無意間助長了文化中流傳的缺陷敘事(deficit narratives),亦即,將某些文化或群體化約為受害者,而不去描寫其具有的力量、創意和能動性。如在數據工作中將女性描繪成被謀殺、強暴或親密關係暴力的受害者,讓這些女性的圖像都單一化為沒有能動力,需要政府、國際組織和公民拯救的受害者模樣。那麼,我們可以說這樣的數據工作確實是在為社會謀善嗎?

地方知識 圖片來源:Brain Pin Map Brain Location Logo Design Template

這些都是難以輕易下定論的反思與提問。Hooker(2018)和D’Ignazio與Klein(2020)對此給的解方,不約而同的都是:重視地方知識。如Hooker(2018)認為有技術的志願者(如駭客松參與者)因為對在地的脈絡並不熟悉,且也會受囿於自身熟悉的工具,因而經常會給出不適宜的解決方案。同樣的,D’Ignazio與Klein(2020:180-181)也認為數據科學家經常是「數據庫的陌生人」,無法知曉數據生產和座落的脈絡,因而很容易在「馴服」數據的過程中造成認識暴力(epistemic violence),讓自己熟悉的觀點凌駕於在地知識之上。因此她們兩位採用女性主義立場論,主張在數據收集、清理、分析和溝通的過程中,都要重視不同的觀點和聲音(尤其是那些來自實際生活和身體體驗的觀點),並納入多元參與的可能。因為單一一個數據科學家絕不可能對抗統治矩陣,但藉由參與式的、納入邊緣者聲音的設計型態,就有可能培力計畫參與者,讓數據工作於專家和社區間進行知識轉移,並帶動起社區的資訊基礎建設,創造出更具有創意、更有效、且更紮根於行動中的參與式數據計畫。而這也許就是用數據工作挑戰並改變權力的機會所在。

參考書目
  • Bassett, Caroline, 2012, “Canonicalism and the Computational Turn.” Pp. 105-126 in Understanding Digital Humanities, edited by David M. Berry. London: Palgrave Macmillan UK.
  • D’Ignazio, Catherine and Lauren F. Klein, 2020, Data Feminism. Cambridge: The MIT Press.
  • Hooker, Sara, 2018, Why “data for good” lacks precision. Towards Data Sciencehttps://towardsdatascience.com/why-data-for-good-lacks-precision-87fb48e341f1
  • Jane, Emma A., 2018, Systemic misogyny exposed: Translating Rapeglish from the Manosphere with a Random Rape Threat Generator. International Journal of Cultural Studies21(6), 661-680.
  • Kowalski, Robert, 1979, Algorithm= logic + control. Communications of the ACM22(7), 424-436.
  • Madaan, Nishtha, Sameep Mehta, Shravika Mittal, and Ashima Suvarna, 2018, Judging a Book by its Description: Analyzing Gender Stereotypes in the Man Bookers Prize Winning Fiction. arXiv preprint arXiv:1807.10615.

原文發表於《臺灣人工智慧行動網》Opinions & Comments(2020)。〈Data for Good:我們希望演算法做對什麼?

封面圖片:https://twitter.com/yimregister/status/1316816559315185664/photo/1

發表迴響

在下方填入你的資料或按右方圖示以社群網站登入:

WordPress.com 標誌

您的留言將使用 WordPress.com 帳號。 登出 /  變更 )

Google photo

您的留言將使用 Google 帳號。 登出 /  變更 )

Twitter picture

您的留言將使用 Twitter 帳號。 登出 /  變更 )

Facebook照片

您的留言將使用 Facebook 帳號。 登出 /  變更 )

連結到 %s

%d 位部落客按了讚: