身處社群、互聯網時代 你願意自發的內容被拿去做科學研究嗎?

大數聚

20190204

1380 Views

原文出自「你願意讓自己在網上發的內容被拿去做科學研究嗎?」,作者劉融,本文經好奇心日報同意轉載,未經同意請勿任意轉載!

編輯選文

編輯選文

10年的臉書,祖克伯賺進名利,也賺進社群互聯網背後交織的人際互動,平常使用臉書、Twitter抒發心情、標註位置、TAG朋友,網路上發著自己的私事、微不足道的小事,都成了Big Data最大的利器,但你同意提供內容被當作研究嗎?同意與否的決定權在你身上嗎?透過這篇文章,希望讓讀者了解科學家是如何「使用」這些你提供的公開數據。

image sourc:Pixabay

社交媒體上的個人帳號數據被商業公司收集、分析、使用,對於長期演算法、廣告、猜你喜歡鬥智斗勇的我們來說,已經不新鮮了。現如今,又多了一類不經常被我們提起的數據收集/使用方——科學研究者們。

民調網站FiveThirtyEight在2018年的一篇文章裡,就以Twitter為例,介紹了社交媒體作為調查樣本對科學研究的重要性:借助Twitter上的海量公開推文和各類行為數據,研究者曾經觀察過人們如何應對全球危機、不同地區的公共衛生狀況、2016年美國總統選舉辯論期間的社交媒體bot(機器人)帳戶行為等等。根據威斯康辛大學密爾沃基分校的學者在2014年對382篇公開研究的測算,僅2007年到2012年(Twitter成立於2006年)之間,研究作者們收集分析的推文大概有至少250億條。

image source:Pixabay

根據文章的介紹,因為收集數據的難度和獲取成本都不算很高,Twitter一直以來都是社交媒體研究的重要數據來源之一。通過使用Twitter自帶的系統或蒐集數據的第三方應用,科學家能獲得免費的推文樣本。如果預算足夠的話,也可以花錢擴大樣本量。

在國內,跟Twitter相似的微博有時候也能被用來進行類似的研究:2013年,一項來自康納爾大學的研究就收集了20多萬用戶約7000萬條微博,目的是觀察用戶使用的語氣對其傳播路徑的影響。

研究者們這樣做,當然是通過了各自的倫理審查委員會(IRB)審核的。而且理論上說,他們其實也獲得了平台或用戶的許可:比如,在Twitter的註冊協議裡,就有類似於「授權平台在某些情況下向其他個人、公司或機構提供用戶發表的內容」這樣的條款。

但問題是,我們註冊社交媒體帳戶的時候,通常根本就沒認真看(也沒看明白)那些條款,就直接點了「確定」。肯塔基大學的學者Nicholas Proferes在去年進行過一次針對Twitter用戶的小規模調查,結果顯示大多數人對待這件事的態度還是有所保留的,一方面,他們承認社交媒體數據對科研的重要性,也不反對有人拿自己的部分數據去研究;但另一方面,他們也認為研究人員不應該在沒有明確通知的情況下收集自己發布的內容(尤其是還包括被自己刪掉的推文),覺得這樣違反了Twitter的規定(其實並沒有)。

撇開復雜專業的科學倫理問題,這裡其實還涉及到幾個公眾看法不一的概念,比如「數字資產」(它們在多大程度上歸屬於用戶?)、「社交媒體」(它到底算是「一個廣場」還是「一片自留地」?)、「研究」(研究者是普通用戶/商業公司/政府部門/科研機構,分別意味著什麼?),還有研究的目的跟取樣的方法也會影響人們的態度。換句話說,用戶不僅想知道「誰在使用我的數據」,還想知道「用它是要研究什麼」、「是收集某一條還是收集我的全部社交歷史」等等。為了消除某些可能的「非理性恐慌」,這些都是需要被科普的。

image source:Pixabay

除了考慮普通人的知情權之外,退一萬步講,即便大家都不介意貢獻出自己的數據,Big Data這個黑盒子裡跳出來的結果,也還是挺讓人在意的。例如前陣子,美國普渡大學就被報導說校方在「用Wi-Fi數據分析學生的每日行程」,可見用戶日常使用/分享的地理位置其實是個相當敏感的信息;Nature Human Behaviour雜誌最近發表的一篇的論文甚至說,他們可以通過分析你的8到9位聯繫人發布的內容,預測你的下一條Twitter要發什麼,準確率高達95%——算法能看穿用戶的行為,幾乎分不清人跟機器的區別,可以說是相當黑鏡了。

直到現在,究竟如何區分「使用」和「濫用」數據,以及怎麼使用才算真正的「合法合理」,科學家們依然在探索更好的方案。Nicholas Proferes在他的調查最後也給出了一些操作建議,比如,盡量以妥善的方式獲得用戶們(而不僅是平台方)的許可、抓取信息時匿名處理、如需實名要請求對方同意,以及,不要使用已經被po主刪除的博文。




全球時事變化莫測,火速追蹤大數聚FB,給你不一樣的角度觀點



 追蹤大數聚


文章內容屬作者個人觀點,不代表本站立場

FacebookShare MessengerShare LineShare