大數據比想像的不靠譜:數據驅動背後的謊言與欺騙

首圖來源:bilmelik

每天早晨我都在謊言中開啟新的一天。

起床後我走進衛生間,秤了一下自己的體重。這個數據會從中國制造的體重秤上同步到我手機中的 App 裡面,並且最終進入蘋果的數據庫,我的體重數據將永久地存放在雲端。

我進行這個秤量體重的儀式是因為感覺它能迫使我對於自己的體重保持誠實。它會阻止我找藉口欺騙自己,比如說衣服不合身是因為洗的縮水了,而不是因為吃下去太多啤酒與奶酪。這些體重數據是真實無誤的,它們不是出自於我的主觀判斷,因此體重秤是不會說謊的。

當然了,我們都相信體重秤顯示的數字從技術層面上來看不應有假,這個數字就是當下我的真實體重,它就如同蛋糕菜譜上的配方表裡的數字一樣是可靠的。

但是在一次次的稱體重中你會發現,那個決定了一個人是標準還是臃腫,是瘦削還是肥胖的體重數字,其實是很容易被操縱的。

如果我想讓自己輕一些,我就會在上秤之前出去跑步流一身大汗,排出多餘水分。如果我擔心自己減的太猛已經超出了健身方案制定的標準,那麼我就需要重新回到健康飲食當中,推遲秤重的時間,補充食物與充足的水,這樣子就可以看到體重數字又有所回升。

當然了,你所使用的這些干預體重的方法只會帶來增減 5 磅(約為 4.5 斤)左右的差別,但是對於某些和我一樣對於體重無比看重的人來說,這些小小的體重數字波動已經足以讓我感覺自己確實有所轉變,從這個人:

(image source :tech2ipo)

變成了這個人:

(image source :tech2ipo)

你也許覺得這只是個人生活方面的數字詐欺,世界上的其他數據,比如說發表在公開學術期刊上的數據總沒那麼容易被人為操縱吧?!

不過如果你看到了最近刊登在美國權威學術期刊《科學》上面的一項研究,或許就不會這麼認為了。該項目的研究人員對於已發表的 100 篇高質量心理學論文中進行的實驗進行了複製,看看是不是能夠得出相同的數據,而實驗結果是僅僅有 36% 的數據可以重現。換句話說,就算是換了另一批小心翼翼且專業的研究人員,也有三分之二的論文結果是不能被重現出來的。

「這個研究項目為我們提供了不少證據,了解到在很多心理學研究論文中發現的結論仍然需要細緻的工作去反覆檢驗,看看這些結果到底是不是像我們知道的那樣確定。」

在如今的很多研究領域當中,科學家們會一直收集數據,直到數據呈現出一種在統計學上顯著的模式,然後他們會使用這些經過嚴格挑選的數據去發表論文。在學術圈裡這種做法被稱作是「P 值篡改」(p-hacking),只要掌握一些數據操作的技巧,就可以讓數據虛高,得出一個在統計學上顯著且有意義的結果。在論文中常用的篡改數據的手法如下:

  • 通過中途的實驗分析決定是否要繼續收集數據
  • 記錄下許多因變量,並決定要選取哪一個寫入報告
  • 擅自決定是否要添加或者刪除極端值
  • 對於實驗群體重新進行排除、組合或者是分離操作
  • 當分析結果已經呈現出 P 值顯著時就立刻停止數據採集

把上述所有加在一起,你就會發現知識產出的過程當中存在著如此明顯的問題。

當這些有問題的研究結論進入到 Facebook 驅動的社交媒體世界當中時,即便是一個小小的「P 值篡改」的研究也會迅速傳遍世界,而且不會有多少人表示懷疑。當一個普通人在快速瀏覽新聞的時候不會意識到那些「科學實驗得出」、「研究表明」其實就是扯蛋,其研究結果根本經不起檢驗,尤其是當這些說法出現在學術期刊上,就更不會引發懷疑了。

這就是所謂專業的科學研究!如果在學術研究領域當中都存在著數據作假,那麼就更別提在數據驅動的商業領域情況會是如何了。

在令人嘖嘖稱奇的《國家的視角》(Seeing Like a State)一書中,展現了各國政府與其他大型機構如何試圖減少世界當中存在的極端複雜性,將其歸為統計數據可以解釋的範疇裡,並使得其國家或者組織的領導人能夠理解到底發生了什麼。

作者 James C. Scott 在全書開頭使用了一則歷史當中真實的故事作為引子。在 18 世紀下半葉,普魯士的統治者們想要知道在自己森林茂密的國家中到底擁有多少「自然資源」。因此他們就開始著手計算了,他們在自己國家的版圖上畫出了一個巨大的表格,這樣就可以算出來在一個劃定的森林范圍當中可以產出多少板尺(譯者注:硬木板材的計量單位)的木材。至于森林的其他價值,比如說為人類和動物提供庇護,以及自身擁有的生態環境價值都被忽略不計。

真實的世界並不那麼守規矩,普魯士統治者們得到的數據總是不完美。因此他們開始自己創造新的森林,在相同時間種下單一品種的樹木,這樣在森林當中就不會存在無法貨幣化的樹木了。「事實就是在這種幾何圖形的森林規劃背後有著國家力量的支撐,這種力量將原生的、真實的、包含多個物種且略顯混亂的森林變成了新型大一統森林,并且將森林劃分成網格狀進行統一管理。」Scott 在書中如此寫道。

(image source :tech2ipo)

普魯士的森林全都變成了網格!這些人甚至把樹木按照嚴格的網格形狀種成整齊的一排。

德國的林務員們對於如何施肥以及管理樹木有著非常科學的認識。普魯士的植樹造林計劃確實奏效,至少在接下來的 100 年裡沒有出現什麼問題。在全世界各地有很多人采用了普魯士這種統一管理森林的方法。

之后森林就開始大片的死去。

「在德國的這一植樹造林計劃中,那些無法形成最終商業價值的樹木品種被拋棄,以至於造成了後來樹木大片死亡的令人痛心的結果,這一局面只有在裸子植物被種下去之後才有可能得到扭轉。」

樹木生長需要依靠復雜的生態系統作為支撐,而這種系統的形成需要經過數代微生物與物種內部的相互作用培養而成,所有的這一切物種關係都被普魯士嚴格的植樹計劃給破壞殆盡。植物與微生物的營養周期被打斷,物種之間微妙的平衡一去不復返,在真實世界里隱藏著的運行規則只有在它消失時才會慢慢顯露出來。德國人發明了一個新詞彙去描述發生的這一切:Waldsterben,意思為森林的消逝。

有時候當我看看現在的世界,在很多情況下,人們僅憑得到的有限數據就去試圖掌控人類與其他生物之間無比複雜的關係。我很想知道是否我們也已經步上了曾經的普魯士的後塵,等待著下一個 Waldsterben 的時刻。

(image source :tech2ipo)

由廣告支撐的互聯網生態系統就是一個好例子。這種運作方式非常聰明:通過整個互聯網獲取人們的數據,然後根據已知的信息向他們展示想要看的廣告。不僅如此,由於和傳統的廣播媒體與印刷媒體相比,人們的網上活動過程是可以跟蹤的,因此廣告主能夠越來越精確地掌握人們想要買些啥。顯然,在數據挖掘技術的支持下,在線廣告市場份額在不斷增長,已經奪取了大部分其他傳統媒體所擁有的市場份額。很多新媒體公司不斷增長的估值都是建立在數字廣告市場將不斷增長的預期基礎上。

不過如果撕開這一層光鮮亮麗的外皮,就會發現其中顯而易見的問題。在那些數字廣告與宣傳視頻龐大流量的背後其實並非是真實的消費者,絕大部分都是軟體偽造出來的虛假點擊。

「這是一種讓虛假流量以假亂真的藝術,它們會通過足夠的信息將自己偽造成一個看上去真實的用戶。由程序控制的廣告計費系統無法分辨點擊是來自真實的用戶還是機器人,也無法識別出那些擁有新鮮、原創內容的網站與只會複製轉貼別人的文章與圖片的假網站。」

當然了,高端的媒體不需要做這種事情。但是便宜且由程序控制的計費廣告被虛假流量給蒙蔽了,虛假流量也拉低了整個在線媒體行業的廣告價格,這使得那些真心做新聞的網站依靠廣告費很難支撐自己的運行。同時,很多網站的用戶都非常反感這種商業模式,並且開始安裝廣告攔截器來對抗在線廣告。

廣告商與廣告技術公司只想要抓取用戶的數據去向他們投放精準匹配的廣告,他們唯一想做的事情就是讓自己投放的廣告更加具有針對性。但是從實際出發,這種伴隨著廣告商不斷增長的欲望而發展出來的廣告模式勢必會以難以預料的方式去重塑網路媒體的價值觀。

我們欺騙自己說數據不過是一個鏡頭,僅僅反映出我們的生活圖景,然而數據實際上已經成為了在線廣告商業模式的引擎。廣告商獲取的用戶數據已經改變了在線媒體業的運作方式。單以收集數據這種行為本身來看,它就不是一個中性的舉動,它是一種重塑在線媒體的方式。

也就是說我每天上秤量體重並不是為了獲知自己真實的體重,而是為了改變對於自己胖瘦的認知。這個謊言通常都是奏效的。

 

文章來源:FUSIONTECH2IPO/創見 陳錚編譯,譯文創見首發,轉載請註明出處。

文章內容屬作者個人觀點,不代表本站立場

大數聚

透過數據,我們聚集各領域的專家,檢視時下重要議題及產業趨勢。當我們聚在一起,用數據說話,說出有意義、有價值的新觀點。歡迎加入我們,一起用數據看世界。