星圖數據:大數據的想像空間

首圖來源:geekheal

雲計算從提出到進化出完善的 PaaS、IaaS 和 SaaS 架構,再到被市場廣泛接受,用掉了將近十年。而大數據概念從知名學者舍恩伯格提出到現在,剛剛不到三年,最常見的用途不過是為碎片化的行銷渠道提供參考坐標。大數據的潛力和商業能量顯然還沒被充分挖掘出來。

就大數據的應用場景和未來的發展趨勢,我們採訪了星圖數據 (Syntun) 的創始人谷熠。

産品經理出身的谷熠曾在 SaaS 企業級軟體行業工作十多年,主要為企業客戶開發數據類和資訊類産品;他的合夥人之一,也是星圖數據的首席數據官 (CDO) 曾在市場研究行業做調研類工作。隨著從業年限的逐漸增加,兩個人慢慢發現了傳統數據收集方法的落後和不全面。

由於經由人工獲取的有效數據本身就非常有限,在後續進行數據處理時,就不得不採用樣本推總的思路。而事實上,建立在這個邏輯上的統計處理很可能會因為樣本不夠全面而導致比較大的誤差。在大數據的幫助下,這些誤差和不可控因素的勢力範圍有可能進一步縮小,從而為更加明智的決策和及時深度的洞察創造條件。

0c17eb4c-2be7-497e-af40-49dd8b2ffe4c

(image source :emaze)

谷熠眼中的大數據 (Big Data) 更像是 Mass Data。星圖團隊自主搭建了獨立的伺服器,並開發了一套大數據供應鏈系統。從數據的採集、解析、存儲、清洗到後期的數據標準化、建模和自學習,整個流程只需很短的時間就能跑完。公開網路環境下的電商交易數量、成交金額、客戶評價等數據,星圖都可以通過自己的採集系統收錄進來;緊接著是對源數據進行分門別類,即解析。解析完成後,這些初步處理過的數據會被快速清洗,那些有潛在使用價值的數據會被長久保存下來。而標準化、建模和自學習才是星圖真正擅長的重頭戲——他們根據數據的種類和行業區別開發了一系列分析演算法來對已有的數據進行多方位和多角度的解讀,這也是輸出最終結果的最後步驟。

以星圖目前的計算能力,每天大約有 5TB 容量的數據進入星圖的自有數據庫,每分鐘可以完成六千條左右的數據處理。與那些網際網路巨頭相比,這個速度還基本構不成威脅。而數據的價值並不能簡單地從容量這個維度上來看。數據內部的精巧結構、關聯關係和廣度、時效性等指標都能反映自身的價值。用電商行業來舉例,這裡的數據可以分為相對穩定的用戶數據和隨時發生變化的時序數據。對於網上零售行業的從業者而言,這兩類數據的重要意義不言而喻。前者能告訴你顧客是誰,有哪些特點,後者則會告訴你和同行相比到底賣得怎麼樣。於是,中小賣家就有了審時度勢的機會,依託于大數據的市場反饋能迅速做出決策和響應,免於因資訊閉塞而決策失誤。

從另一個角度看,電商行業的用戶和交易數據被阿裏、京東等平臺型巨頭持有,這些數據是相互獨立、互不開放的。其實割據在網際網路的很多細分領域都已經稀鬆見慣,而星圖卻打算用這樣一套數據供應鏈系統打破數據層面的割據,通過對全網數據的挖掘,反映真實的電商運作情況。媒體和電商分析師們又多了一個客觀的視角。

在零售以外的領域,大數據的魔力並沒有減弱。比如,在佔據國民經濟主體地位的製造業,利用大數據的用戶和市場研究結果,産品設計人員可以及時了解消費者對功能和外觀的喜好,獲知他們在使用中的具體困惑,反過來影響産品設計之初的具體方案。這就避免了採購浪費和供應鏈臨時調整的麻煩,産品方案一旦確定即可大規模投入生産。在谷熠看來,歐美等發達工業國家的先進之處在於供應量的柔性管理能力——市場反應不達預期,可以迅速停止生産或改用備選方案,非常機動靈活。有了大數據的支撐,中國的製造業脈搏能更加有條不紊,逐漸改變過去低水準重復建設的生產模式。

談到大數據,另一個無法回避的永恆話題是用戶隱私。

在採訪中,創始人谷熠並沒有對此顧左右而言他。星圖在數據積累早期就在內部建立了一個用戶資訊分級機制,能夠有效預防隱私洩露情況的發生。

事實上,網際網路的使用者幾乎一定會在網路上留下些許痕跡,隱私本質上是一個度的概念。如果不貢獻任何數據,這個商業世界的很多美好事物將永遠不會出現。大數據的想像空間正是在對用戶數據的合理使用基礎上建立起來,隨之而來的便利、智慧和自動化也應該讓大數據的參與創造者儘快享用到。

到那時,數據反哺農業、製造業乃至服務業的願景才會一步步實現。

 

本文轉載自TECH2IPO/創見

文章內容屬作者個人觀點,不代表本站立場

大數聚

透過數據,我們聚集各領域的專家,檢視時下重要議題及產業趨勢。當我們聚在一起,用數據說話,說出有意義、有價值的新觀點。歡迎加入我們,一起用數據看世界。