為什麼我們很難像《魔球》一樣點石成金?——談大數據的機會與挑戰

首圖來源:amazon

我們活在巨量資料的世界,資料的數量與多樣化的程度,每日都以前所未有的規模撲向人類。無論你是不是在相關產業工作,都不可能逃離被大數據「圍攻」的現實。自哈佛大學電腦科學系畢業、Cambridge Semantics 共同創辦人 Lee Feigenbaum 撰寫的《Turnning Big Data into Smart Data》一文,告訴我們橫亙企業眼前的「大數據挑戰」。讓我們先來看看,大數據到底有多大?

  • 每天全球每一個人聚沙成塔,累積的新數據達到「艾位元組(exabytes)」(甚至達到「皆位元組(zettabytes)」,端賴統計的來源)。
  • 至今一半以上(有些報告甚至指出高達 90%)的數據資料是在過去 12 個月產生的。
  • 人們創造數據的速度每一個月都以雙倍速度成長。

除了嚇人以外,光有這些「大數據」,其實沒有什麼意義,唯有人類能夠從中發掘價值,大數據才產生意義。所幸,已有很多應用實例,讓大數據發出應有的光芒,也讓我們看到各行各業有無窮盡的機會,等待數據科學家的探勘。

moneyball-movie-2011-5_jonah-hill_brad-pitt

(image source:inside)

 

  • 在「大數據」還沒變成人人琅琅上口的流行詞彙之前,小說改變而成的電影《魔球》描述美國大聯盟運動家隊點石成金在缺乏明星球員的狀況下殺出血路的真實故事,早已讓人津津樂道,而它正是數據分析的絕佳體現。
  • 醫療與製藥產業紛紛投入大筆經費,研發「客製化」的個人醫學,透過分析病人的特徵與基因組成,給予個別病人量身定做的診斷與療法,實驗室與臨床都需要大量且多樣化的數據整合。
  • 智慧型手機、運動手環甚至後來的智慧型手錶,我們分分秒秒都在「量化自我」,健身的程度、攝取的營養、身心狀況、行為趨向全部都被巨細靡遺的記錄下來。
  • 大型銀行與隸屬政府的金融部門對資料長(chief data officer,CDO)與數據科學家需求若渴,他們要能全盤考量組織職能,針對數據的蒐集、分析與應用做出策略性的思維。
  • 無論地方政府或中央政府,都正流行「資料透明化」,如英美政府皆建立網站揭示公開資料。人們自發性要求政府公佈更多資料的行動也如火如荼,例如美國的 DATA Act。
  • 大數據在美國總統大選中扮演了很關鍵的角色,幫助候選人清晰的辨識出搖擺不定的選民。
  • Target、Walmart 等零售商巨擘已經透徹分析顧客的資料好幾年,早就能夠在家人與朋友察覺之前,搶先一步知道某個消費者懷孕的消息。
  • 智慧型恆溫器 Nest Thermostat、智慧監控 Quirky、利用使用者 GPS 「群眾外包」塞車情況的 Waze,都是基於數據蒐集與預測成就物聯網生活的新創公司,他們都已獲得 GE、Google 等大企業投入鉅資甚至併購,企盼能從巨量資料中挖掘巨量價值。

儘管有這麼多成功的案例,對很多企業來說,大數據仍像一座無法翻越的山嶺,難以將數據完美的融入決策過程。通常公司在運用大數據時,會遇到下列五個挑戰:

挑戰 1:我們不知道答案,甚至連問題是什麼都很模糊

大數據時代的其中一個關鍵特徵是,我們很難知道我們需要的答案,有時甚至連想要解決的問題都很模糊。有一部分原因是,大數據的價值在於模式(pattern)與相關性(relationship),但這些過去隱藏在大量資料中的模式與相關性,經常都是意外發現的。我們不能期待專家為每一行資料都特製 MapReduce(Google 提出的軟體架構,用於大規模數據的並行運算),其他大數據分析框架也一樣有很高的進入壁壘,阻礙簡單的資料探索與分析。

擁有深度分析、數學、統計與程式技能的數據科學家,無疑是現階段最炙手可熱的人才,不過人才養成的速度遠遠不及市場需求。

挑戰 2:非結構化的數據難以採集

就現實面來說,大數據其實就等於「非結構化」的數據,也就是從文本分析到未經梳理的文字、聲音與影片導出的數據。這些文本分析景觀,有著幾乎堆積成山的問題,讓我們難以利用非結構化的數據幫助日常的企業營運決策。這些問題包括:

  • 不同的內容需要運用不同的工具:客戶迴響與產業分析各有不同的語言分析工具,如果使用一般的分析軟體,可能就會犧牲精準度。
  • 不同的時機需要運用不同的文本分析技術:自文本中萃取企業內部資訊,跟分析社群媒體情緒波動是完全不同的挑戰。
  • 文本分析的結果不可預測:挖掘大量網頁、電子信箱中的信件、以及其他文件,通常能夠顯示過去未知的關聯性。只是,即使大數據的貯存,讓我們能夠更便利的捕捉難以控制的數據,不過後續的分析,光有大數據的存在是沒有多少幫助的。

挑戰 3:大數據難以重複利用

一般而言,數據的蒐集、貯存、使用,都是針對單一目的,像是投資銀行蒐集 10-K 文件(美國上市公司年度報表),協助買方從事權益分析,生技公司在資料庫中儲存臨床實驗的結果,向 FDA(美國食品藥品監督管理局)提交報告,電商從製造商擷取庫存滋料庫,與他們自己的網站內容管理系統整合在一起。這些數據既然只為特定目的服務,自然很難再被利用到其他使用情境上。因此,風險管理人員無法從 10-K 文件的分析獲取與自己職務相關的資訊,生技公司的資深科學家沒辦法自臨床數據滋料庫預測早期藥物的成功機率,電商從業者也沒辦法重複利用庫存資料庫,辨識不同商品的戰略性差距。

挑戰 4:大數據只是故事的一小部分

從前幾項挑戰看下來,想要促成一家真正由數據驅動、且由數據決策的公司,光有大數據是遠遠不足的。大數據得跟傳統的企業資料來源(如交易與營運資料庫或 ERP 儲存系統),或者雲端 SaaS 應用(如 Salesforce 的 CRM 資料)、無數的影子 IT(shadow IT)數據來源(包括試算表、簡報、文件、SharePoint),整合的工作極端昂貴而且曠日費時,但是如果不做,那也甭想利用大數據解決企業的問題了。

挑戰 5:大數據的「準備」階段成本極高

大數據時代的普遍心態與工具,總是鼓舞著我們蒐集愈多數據愈好。不過數據要有價值,在準備的階段就需考量整合、散佈與利用。大數據的「準備」可能代表三種情況:

  • 發現(discovery):在大量的數據儲存中辨識正確的數據記錄
  • 去蕪存菁(curation):評估與改善數據的品質、可靠度與精確度
  • 組合(alignment):將數據概要與個人記錄以常態的模式聯繫起來,以利整合與分析。

普遍來說,數據的準備,幾乎完全是純手工作業,因此非常冗長乏味,消耗很多時間,而且還很容易出錯。

要克服這些挑戰的方法,就是把大數據「變聰明」。Lee Feigenbaum 把未經處理的數據稱為「啞數據」,他也提供了「讓數據說話」的五個方法,或許這是讓大數據足以突破困境的方法也不一定。

 

本文轉載自INSIDE硬塞的網路趨勢觀察

文章內容屬作者個人觀點,不代表本站立場

大數聚

透過數據,我們聚集各領域的專家,檢視時下重要議題及產業趨勢。當我們聚在一起,用數據說話,說出有意義、有價值的新觀點。歡迎加入我們,一起用數據看世界。