透過「藥命效應」(Limitless)三分鐘了解什麼是大數據(Big Data)

首圖來源:fanart

2011 年有一部不算主流的電影「藥命效應」(Limitless)上映,我還滿喜歡這部電影的。除了男主角 Bradley Cooper與Robert De Niro正好都是我喜歡的男演員之外,劇本故事性也很強。(講白了,就是一般市井小民所夢想的情境,不小心吞了一顆變聰明的藥丸,馬上從魯蛇組變成人生勝利組。)

或許不是每個人都看過這部電影,所以我從 Wiki 上把劇情簡要給貼過來,因為我發覺許多大家不容易搞清楚的大數據的名詞、歷史、工具與理論,很適合用這一部電影當做一個Metaphor,來對大數據有一個基本的認識。

「藥命效應」的劇情

這部電影的劇情大約如下:

Bradley Cooper飾演的小說家愛德華·摩拉( Edward “Eddie" Morra)江郎才盡,不事生產的他,已然坐喫山空,面臨出版社的壓力,女友也離他而去,是標準的人生魯蛇組的慘狀。但就在愛德華與女友分手後,巧遇前妻的弟弟,並拿到一款能讓人「變聰明」的藥物:「NZT」。

為了挽救岌岌可危的事業與生活,愛德華開始服藥,NZT奇異的能夠增進智力,將大腦運作效率增至極限,其神奇效力令愛德華記憶能力超強、對事物過目不忘。一夜之間完成一本小說,寫好一篇論文,學成多國語言;愛德華變成能言善辯、才華橫溢的萬人迷。

NZT促使他的潛能爆發,所以他從小說家走向股市,一夜致富,成為華爾街名人。忽然名利雙收的愛德華,吸引了Robert De Niro飾演的金融大亨卡爾·萬隆的注意,招攬愛德華合作。

此時,愛德華身體因為藥性已經不堪負荷,前妻基於善意,告知愛德華NZT可怕的副作用類似於毒品,秘密逐漸曝光。同時昏昏沈沈的愛德華亦捲入了謀殺案,警方緊追在後,地下錢莊與黑道也一直覬覦神奇藥物,虎視眈眈;愛德華已墮入無可挽回的絕谷。

但變聰明果然能想到辦法,最終,愛德華成功的解決各路人馬得追殺,也找到無副作用生產藥品方式(也是變聰明之後的產物),從此成功過著人生勝利組的日子。

電影簡介精采,接著,讓我們來看看這電影如何和大數據產生關係?

電影和大數據的應對關係

1.吃藥前的Eddie可以類比為大數據架構(類似Hadoop)發明前的IT系統,因為腦容量與運算能力的關係(儲存容量與運算速度)。 只能做一般常人的工作(像Eddie 只是一個不入流的小說家),由於能吸收與轉化的外在資訊也有限(外部數據收集), 所以必須對很多呈現在周邊的數據忽略或視而不見,只能專注自己覺得重要的選擇性數據(過去的RDBMS)。

2.NZT的藥方可以類比為Google於2004與2006年所發表的MapReduce與Big Table論文,該論文闡述了可以如何利用便宜的伺服器堆疊,來進行大數據的收集與運算。而Apache Hadoop就是透過該藥方所做成的免費藥丸,據說可以實現該藥方所描述的神奇力量。簡言之,就是依據Google大數據的藥方所產生的學名藥丸。

3.無奈的是,Apache Hadoop這免費藥丸和電影當中的 NZT 沒啥兩樣,有很多不良的副作用,這藥要不就是不容易做出來(系統架設部署失敗),要不就是少了一些成分,吃了沒效。於是有許多其他藥商就把Apache Hadoop藥方基於神農嚐百草的精神,做成了不同的NZT版本,加了一些他們覺得必要的成分,也就是Hadoop的各種distribution version (如:cloudera, hortonworks, mapr … 等)。

4.這幾家藥商做出的NZT變形藥,顯然比Apache開源版的要好用多了,所以有幾家藥商直接開起了賣藥的生意(軟體或 Appliance),有些保持免費的,但透過教你如何用藥來賺錢(顧問服務)或販賣用藥的周邊商品。

amvcdxzxhqdfplefrfab

(image source:kinja)

5. 而Eddie在吃了NZT之後,腦容量大增,所以可以大量的儲存(HDFS)與接收(Sensors)來自外界各式各樣的訊息(Data),並進行快速平行的分析(MapReduce)。因此,可以一夜之間就完成一本小說(大幅縮短原本的工作時間)。另外,舊腦袋過去只能儲存Eddie自己所能理解的資料(結構化資料),但新的腦袋卻可以儲存各種半結構與非結構資料(影像、視訊、Log等),不管什麼資料都先給存下來,要分析時,再從所有的資料當中做快速平行處理。

6.後來Eddie 得寫小說賺錢不夠快,所以就把這樣的能力換到炒股上面,甚至後來從政成為參議員。就這是說明雖然 Hadoop本質是一個可以大量對數據進行儲存與運算的架構;但其實基於該架構之上,進行不同的行業與領域的分析與數據挖掘工作,實現對行業的積極意義(如:炒股的方法、從政的捷徑),才是大數據真正價值之所在,也是含金量最高的地方。

7.電影當中很多Eddie在吸收了大量資訊之後,快速的處理資料(電影中快速的切換畫面),可以想成他正在為數據套用合理的分析模型(Analytic model),依據不同的數據源套用合適的分析模型,進而找到數據當中彼此的關連性。這部分工作和 Hadoop 的基礎架構沒有太大直接關係,反而和統計工具的使用(如 R )與行業的知識與經驗大有關係。數據分析與建立模型的工作,是大數據工作當中,最重要而且最難的部份,常常花了許多時間與精力所得到的結果,卻是顯而易見或是無法解釋因果關係,必須重來。所以,我們常常提到「尿布與啤酒」的案例,難的不是這個結果,而是如何找到這個關連性的分析方法。

8.大數據還有一塊很重要的分析視覺呈現(Visualization)。所有數據分析的結果,都存在 Eddie 的腦中,但在電影當中,Eddie 隨時還可用不同的語言與外界交談,包括了英文與中文等。視覺呈現(Visualization)就是展現分析結果的表達形式,這一塊在大數據與商業智慧中,也是滿重要的一個部分,畢竟一圖解千文。將分析結果以圖表方式列印出來,透過精美的樞紐分析或多維度的圖形表達,可機會激發有行業經驗工作者的一些靈感,也許無意間就發現了類似「尿布與啤酒」的秘密。

大數據之所常常讓人覺得像霧裡看花或teenagers’ sex,就在於它是一個跨領域、跨行業與跨知識的學問,要懂的工具、知識與經驗非常廣泛。基本上,都必須由一個有多種專家組成的團隊來完成所有的工作。當然,也不可能說看完這篇文章,就一夕之間,變成一個大數據的專家,但是,我認為透過「藥命效應」(Limitless)這一部電影來做類比與隱喻,相信可以讓對大數據完全沒有頭緒的人,快速的對大數據有一個基本的認識。

 

本文轉載自INBOUND搏來客行銷,作者為吳政達,嘉丰資本投資合夥人兼台北首席代表,曾擔任資策會南軟育成中心審查委員,著有《搏來客行銷:Inbound Marketing》,持續觀察兩岸網路產業的發展變化,並提供各種有趣的原創觀點。

文章內容屬作者個人觀點,不代表本站立場

大數聚

透過數據,我們聚集各領域的專家,檢視時下重要議題及產業趨勢。當我們聚在一起,用數據說話,說出有意義、有價值的新觀點。歡迎加入我們,一起用數據看世界。