打破 8 個關於大數據的迷思

首圖來源:utexas

近來,產業界吹起一股大數據風潮,然而大數據和 Hadoop 在運用上容易產生什麼盲點或迷思?Mammoth Data 創辦人 Andrew C. Oliver ,以及英士國際商學院 ( INSEAD ) 的委任教授 Joerg Niessing ,分別就他們的觀察,幫助大家做出整理,打破迷思。

1. 找一位數據科學家

最近,我們公司合作的一位銷售工程師告訴我,他的公司在尋找數據科學家時,遇到不少麻煩。我問他,他們需要的數據科學家需要具備哪些條件?他告訴我,需要一位數學博士,擁有電腦科學背景,曾拿過工商管理碩士,當然,如果有上述這些領域的相關工作經驗更好。我聽完,霎時吃驚得問:「天啊!這樣的人到底幾歲?90?」

然而,實際的情況,並不如想像中美好,因為優秀的數學家往往只能寫出簡單的 Python 程式語言,如果想讓他們主動接觸商業,並不容易;優秀的電腦科學家,可能只懂一些數學;優秀的電腦科學家在實際工作後,可能才開始懂一些商業。

這也是為什麼這間公司一直無如願找到數據科學家的原因,因為這必須是一整個跨領域團隊的工作,而非僅是找一個人出來負責這麼簡單。

2. 需要機器學習

我猜有約 85 %的人,都認為「機器學習」是簡單的統計。但你大部分的問題,可能都是出在簡單的數學和分析。就從那裡開始改善吧!

3. 你是特別的

正如偉大的哲學家 Tyler Durden 曾經說過,「你不是什麼特別的人物。你並非美麗、獨一無二的雪花。」其實有一半產業的人可能都根據相同的數據來源和資料,編寫相同的 ETL,而在任何一個頗具規模的公司當中,許多部門可能都正在做同樣的事,而這正是你成為大數據顧問的好時機。

Print

(image source:revinate)

4. HIVE很快

Hive 速度不快,也許新版本看似改善了速度,但因為沒有很到位,所以仍然會讓你感到乏力。儘管 Hive 可以處理大量的數據,但你可能需要更多元的工具,才能讓 SQL 應用在 Hadoop 上。

5. 大數據時代讓分析師顯得特別重要

經常有人說,大數據時代將是分析師崛起的時代,但這其實是被誇大的。我們其實需要更快速的工具,協助處理多元大量的數據。理想的狀態是,一個由主要分析師組成的小團隊運用技術,幫助行銷人員做出他們自己的分析、情境模擬和決策依據。

6. 大數據給你具體的答案

模稜兩可是大數據的主要特徵,因為多個數據來源,可能會讓你距離證據愈來愈遙遠,而不同的數據,若是經過錯誤分析,就有可能產生相互矛盾的證據。這時什麼樣的數據值得相信?什麼數據不足以相信?就得仰賴技術分析師運用專業判斷,解決證據與證據之間的衝突和矛盾。

數據愈多,你就愈有可能產生矛盾,以及需要解決的分歧。大數據並非萬能,更多的數據,只會為你帶來更多證據,但並不會讓你更接近真相。所以如何透過有經驗者的專業判斷,理出頭緒,得花時間深究。

7. 大數據是神奇八號球

你必須用對的方式問問題,這其實有點像當精靈給你三個許願的機會時,你必須相當謹慎。一旦你缺乏事前縝密且細節的假設,就開始著手處理複雜的數據集時,你將會被導向錯誤的方向,並且在最後得到錯誤的答案。

8. 大數據可以創建自我修正演算法

大數據價值挖掘的風險在於,容易產生許多根據劣質數據所造成的「誤報」,但其實只要透過正確的方式,演算法可以變得相當有用,但這通常需要人為的介入。以手機電信商來說,他們就成功得將非行銷資料,運用在行銷上。像是他們會知道,你有哪些朋友、你的年紀、你平常最喜歡去哪些地方、你喜歡拜訪什麼網站、你經常使用什麼 App。

說到底,揭穿上述這些迷思,就是為了幫助大家瞭解,其實許多商業上的成功,並非僅歸功於大數據。事實上,大數據本身就是一個工具,就像電腦或智慧手機一樣,是一種當你懂得善用,才可能改變遊戲規則的工具。

參考資料:
The Eight Most Common Big Data Myths
Debunked! 9 myths about big data and Hadoop

 

本文轉載自INSIDE硬塞的網路趨勢觀察

文章內容屬作者個人觀點,不代表本站立場

大數聚

透過數據,我們聚集各領域的專家,檢視時下重要議題及產業趨勢。當我們聚在一起,用數據說話,說出有意義、有價值的新觀點。歡迎加入我們,一起用數據看世界。