處理資料像料理菜餚?淺析做數據分析的六項技能!

首圖來源:大數據製圖

常常有人問我:「不是學資訊背景出生的,但是對數據分析有興趣,我也能做數據分析嗎?該怎麼做?有沒有學習的建議?」

這是個好問題,也是個大問題,好的地方在於這個興趣以及學習動機令人振奮,大的地方在於,無法三言兩語就說得清楚,總是得花上點時間娓娓道來。

通常,我會先反問對方:「你為什麼想要做數據分析?你最想分析些什麼?」

畢竟,“WHY”永遠比 “What” 和 “How” 來得重要

數據分析師 vs 廚師

經歷過大大小小的數據分析研究案中,我發現「數據分析師(a.k.a資料分析師)」其實和「廚師」 的日常很相似,讓我們從簡單又不嚴謹的定義開始來聊聊:

什麼是廚師? 假設負責料理的人就稱為廚師。那麼在家裡負責料理的那位,就是家中的廚師。

什麼是數據分析師?負責分析數據的人就稱為數據分析師。

我們將廚師的日常整理成下表,發現其工作項目和數據分析師在概念上極為相似,若從此角度出發,相信大家將更能明白也更能掌握成為一位數據分析師所需具備的各樣能力。

廚師與資訊人員圖表

關鍵點:食客 / 客戶 (需求端)

不論做菜或是做分析,關鍵點始終是客戶的需求,如果今天客戶點的是美式漢堡,你偏偏上了一道麻婆豆腐,就算你的麻婆豆腐做的再好火侯再道地,也是會被客訴,所以在開始任何流程之前,一定要先弄清楚客戶的需求是什麼,就數據分析的角度,要先有明確的目標(美式漢堡)和明確的需求(不要起司洋蔥多),才能進一步評估

  • 需要哪些數據  / (麵包、漢堡肉、美生菜等等)
  • 可能需要清理與預備的項目 / (菜要洗、洋蔥要切)
  • 數據存放在哪?
  • 需要的工具 / (烤箱、平底煎盤)
  • 需要花費的時間
  • 最後呈現的方式

技能一:取得食材 / 取得數據(資料)

首先,讓我們從食材預備(資料預備)開始聊聊。

食材取得方式很多,傳統市場、超級市場、量販店、自耕自種,甚至直接買個料理包,回家加工即可。同樣的,在數據分析流程中,當我們的目標與需求擬定之後,可進一步研擬數據取得方式,可以是內部自有資料、公開資料、第三方資料等等。

技能二:備料 / 資料預備

食材不同預備的方式也會有所不同,肉要醃、菜要洗要切,有時蛋要打散有時不用,一切都取決於任務目標和需求,同樣的,資料的類型不同,處理的方式也會有所不同,有時我們需要數值型資料離散化,有時我們需要將每日的銷售額提升為每月的銷售額。最終的目標,就是改善資料品質!

大致上我們可以將資料預備的流程分為

  • 資料清理:處理雜質、或是缺值的問題
  • 資料轉換:常見的工作項目是進行資料的正規化
  • 資料整合:改善資料不一致的問題,例如:綱要整合的問題、多餘屬性的問題
  • 資料簡化:降低資料量或是資料維度以提升效能

這個階段,不論是做菜還是做分析都是最耗時的階段。

技能三:食材存放 / 資料儲存

食材不同存放的方式也會有所不同,牛奶要放冰箱、醬油備品放一般櫥櫃。資料存放的方式,也會依據其資料量以及資料結構的複雜性選擇不同的資料儲存環境。如果規模不大,由時候儲存成csv或是json格式的檔案就很好用了,到底要選用傳統關聯式資料庫Relational DB、Graph DB、NoSQL DB亦或是NewSQL DB,則不在本文中討論,免得大家驚惶逃跑。

簡單來說,我處理過最可怕的資料儲存方式,是寫在A4的紙上,掃描成pdf檔,然後告訴我他們有做資料數位化,這就像有人買了一些紅蘿蔔塑膠模型,然後告訴你新鮮的紅蘿蔔買回來了,實在太悲劇了。

技能四:廚具 / 分析工具

工欲善其事,必先利其器,煮飯用電鍋而非煎鍋,同樣的,我們要分析的標的不同,所採用的分析工具就會有所不同,我們依據不同目的性將資料分析工具簡列如下圖。

圖片 1

對於初學者而言,對於資料的敏感度也就是所謂資料察覺(data awareness)才是最重要,簡單的試算表就能夠做出百百種的分析與應用,所以建議可以先把試算表玩熟了,再學習其他工具。就像一個簡單的大同電鍋,就變變出上百種料理是一樣的道理,重點從來都不是 “Tools” 而是 “Mindset”。

技能五:廚房 / 運算環境

如果是做一家四口的料理,一個小而美的家庭廚房就綽綽有餘,但要完成100桌的喜宴料理,那規模可就不同了,同樣的,資料運算環境,也會依據我們需要分析數據規模不同而有所不同,回到之前我們所談及的”Mindset”,做數據分析,運算環境是考量之一,但不會是首要考量,現在有許多雲端運算服務提供商可以選擇,若真有需要,你不需要自己蓋個廚房,去租個廚房即可。

技能六:擺盤 / 資料視覺

這真是個藝術,一樣的東西,擺盤方式不同,價值感就不同,假設我們想要呈現民眾抱怨最多的時段,以文字(下圖左)的方式呈現感覺上很明確,但是其實較單一也較缺乏資訊含量。反之,若是以熱圖(下圖右)來現,我們可以發現一些概況,例如:大多數的抱怨在晚上五點到七點之間最多,其中週六中午也會有量點,可以進一步探究原因。

圖片 2-side

廚師有很多種,依據其擅長的料理,可以分為台式料理、中式料理、日式料理、美式料理、義式料理等等;廚師依據熟稔度與專精度,又可以分成不同等級,有二廚、三廚、副廚、主廚等等,不論是哪一種,愛做菜、願意做菜、會做菜的都是廚師。

數據分析師也可以分成很多種,不論是哪一種,數據分析的基本功要打好,如果你想成為一個很厲害的鋼琴家,你會需要花上超過8000個小時練習,同樣的,如果你想要做一個頂尖的數據分析師,時間的投入是少不了的。

 

這是一個人人都可以做數據分析的時代

以前取得資料不易,現在容易許多,有時甚至還太多了些

以前工具沒那麼多,現在應有盡有,有些還免費立即可用

以前運算環境沒那麼強,現在運算成本極低

只要你對料理有興趣,按部就班,有個起頭,就能做出些小料理

所以只要你對數據分析有興趣,按部就班,有個起頭,你也可以成為某個領域的數據分析專家。

文章內容屬作者個人觀點,不代表本站立場

新聞轉載

胡 筱薇

喜愛新鮮的事物,對於資訊科技充滿熱情外表看起來很活潑但骨子裡是個阿宅,沒事喜歡窩在家裡觀察其他阿宅都在做什麼。愛家、愛耶穌,目前擔任東吳大學巨量資料管理學院助理教授,勉強算是個Data Watcher,也勉強算是個Data Player,近年來致力於巨量資料探勘以及社群網路分析應用之研究,同時,也成立了資料實驗室(Data Lab)並透過實際的專案項目培養巨量資料分析人才。