穹頂之上:未來大數據時代中的高級數據學

首圖來源:HiRes

為了充分實現大數據所能帶給人類的福祉,我們必須將社會學以及一切與人類有關的學問重視起來,將其置於與數學以及計算科學同等重要的位置上。

21世紀,這是一個多麼適合上演奇蹟的時代,不僅僅是因為它更容易去實現人們曾經的夢想,更是因為在諸多科技和媒體領域,人們普遍都感覺到自己已經被其進步的速度帶得飛離地面,覺得每一個今天都已然成了明天。毫無疑問,我們已經生活在了大數據的時代,人類歷史截止到2010年所產生的所有數據,匯集起來,將我們推向了一個更加壯闊宏偉的大數據的未來。

我的夢想,是希望擁抱一個充滿了更多具有明確意義數據的時代中。為了實現這一點,我們應該對數據進行收集、分類、分析、解讀、並將其聯繫組合起來。我們更要將數據視覺化,能夠更加明確的表達出來,要讓人們更加方便地進入數據。但是如今,那些所謂的「數據科學家」,更加傾向於在數學領域舞槍弄棒,他們普遍擁有計算機科學背景,卻無法真正充分實現大數據所蘊含的潛力。

4113.Data-Culture-Sketch-Infographic

(image source :mscorp)

 

在我們開始對真正的大數據進行解讀之前,讓我先來澄清我口中的「大數據」的概念,它反映出來了兩個各自獨立,卻又相互聯繫的概念。

第一層的data,小寫的data,複數的data。它是所有我們理解和衡量這個世界以及我們自身,有關定量乃至定性的範疇。

第二層的Data,大寫的Data,也是單數的Data。這個數據比所有的部分集合到一起更加的綜合龐大,這是所有一個將結果和行動打包起來的集合概念,直接對結果和行動之間的關係提供解釋。

除了單純的收集、儲存、分類這些數據之外,我想說將數據情景化、故事化、視覺化同樣是非常重要的工具,有助於我們來了解和描述事物之間的關係。而在這些工具之間的相互轉換、組合、搭配,才是真正數據學的奧義所在。更重要的是,數據學並不僅僅簡單的指代某種存儲、命令、以及解讀數字的能力,它更不可能是單單靠一個人就能夠辦到的事。

從供給方入手,這是在產出的每一個步驟環節都涉及大數據整合利用的過程,而在消費方的角度來看,它只看到最終產品的適用性。無論哪一方,大數據之於他們,就意味著要在生產和消費的過程中不斷地去深刻理解和解決各種深層次的問題,這其中包括了戰略方向、數據收集、過濾、分析、以及演示。

如果要總結現狀的話,應該是這樣的:那是我們想要去測量的東西,但是不知道該收集什麼數據。那是我們想要收集的數據,但是我們不知道該如何收集;即便我們已經收集到了我們想要的數據,但是因為它們不是準確的所以無法真正投入應用;更無法對其進行解讀;如果我們錯誤解讀了這些數據,就會產生太多雜亂的聲音和誤導人的信號;之所以我們會錯誤的解讀,是因為我們無法正確的對數據之間的關係進行分類,無法分清楚什麼是相互關聯影響,什麼又是因果關係;進而我們想要利用這樣的數據成為行事的依據,就在一開始埋下了錯誤的根源。

如果我們沒有形成、並且掌握真正的數據學,我們很有可能遭遇一下的狀況:我們不收集它;我們忽視它、我們看著它,卻不知道應用;我們錯誤地應用;我們從中提取出來錯誤的信息,我們為了支持錯誤的觀點,強行扭曲它使之成為有力的佐證。

而即將出現的高級數據學就能夠幫我們解決上述的問題。現今,每一個人都能夠張口就給出幾個數據,或者將其編進一個巨大的EXCEL表格,但是我們僅僅止步於此,面對成噸的數據,我們提取不出來任何有意義的信息。如果在這穹頂之上,能夠真正納入以下三個方面,那才真正能夠實現高級數據學的內涵和意義:「情境化」「敘述」「設計以及視覺化」

「情境化」意味著一個將所發現的數據置於合理的角度,使之與周遭能夠聯繫起來的過程。

「情境化」在之前往往是社會學領域使用的一款工具。無論是社會學家、人類學家、經濟學家、政治學家、心理學家、地質學家家、歷史學家、考古學家,都在利用這個工具更好的理解他們所掌握的一切,面對學科內種種的存疑提供盡可能準確、合理的解釋。同樣,心理學、文學、宗教、藝術、歷史、文化、以及語言在理解和記錄我們的世界的過程中,自然而然實現了我們所說的「情境化」。

即便之前有了這麼多領域的研究和應用,但是「情境化」依然沒有被納入到數據分析和挖掘的範疇之中,更別說數據在收集之後所形成的決策上了。專注於去細分性別、姓名、教育背景、種族、宗教、家族歷史、個人經歷以及地理位置之間到底有著怎樣的區別,這是「情境化」的關鍵。

如果將社會學中的研究方法和框架抽離出來,應用到數據學上,那麼就能夠回答以下這些關鍵問題:

是誰創造了數據,基於何種原因,在何種條件之下,有怎樣的目的?在「數據抽離」的過程中,存在著哪些阻礙、切入點,以及背景前提影響著「數據抽離」本身?

是誰在收集、分析、解讀、解釋、以及視覺化這些數據?他們的目標是什麼?看得見和看不見的偏見又是什麼?他們在進入這個領域時都擁有怎樣的個人背景?

誰是最終受眾?你究竟能夠找到怎樣的方式,將你的研究成果能夠更好地讓這些受眾理解,如果他們不理解、不認同的話你該怎麼辦?

現代思潮、地理位置、以及受眾本身的個人信仰,這些東西將如何作用於上述的交流過程中?是否會影響他們理解你的觀點?

big-data_0

(image source :blueflag)

「敘述」,是一種能夠通過故事表達,從而完成解釋、說服以及激勵等作用的藝術。

敘述有很多形式,比如電影、廣播、報告等等。至於回到我們的數據學應用範疇,那麼我希望將其定義稍微往外面擴展一些,將講述故事的源頭轉移到數據上面。

自從文明誕生以來,我們就非常重視這種講述的技巧,你可以在教育系統中看到,公眾演講中看到,甚至在自我表達中都能見識到這種技巧。所以,讓數據變得更加有意義的重要方面之一,就是要讓數據轉化為更加富有情節和感染力的敘述。別再待在冷冰冰的數字殿堂裡面轉悠了,去找那些會講故事的人,去找那些英文專業畢業的文科生、哲學家,讓他們來審視你的數據,他們會說出你完全想不到的另外一種解讀方式。在此,我特別想引用Google公司曾經的哲學家,戴蒙‧赫洛維茲(Damon Horowitz)博士曾經說過的一段話。他擁有哥倫比亞大學的文學學士學位、麻省理工大學媒體實驗室的理科碩士學位、以及斯坦福大學的哲學博士學位。他是這麼說的:

如果真的想要在人工智能領域獲得成就,我想最重要的一步並非是再建起一個什麼人工智能中心實驗室,真正應該做的是要去打造一個表現更加理想的思想者,在這個目的驅使下,我們應該去學習哲學。我很高興自己能夠辭掉科技公司的職位,跑去學了個哲學專業的博士回來。這是我有生所做的最正確的決定之一。

 

「設計」,是一個將複雜的事物變得易於理解的過程。

設計是一個用於交流的奇妙工具,它能化腐朽為神奇。一個完全沒有接受過教育的人,在面對精美設計的時候,是可以完全感知並接收到信息的。設計所擁有的簡潔、親和、示範性、以及其目的性,使得它能夠讓數據發揮更大的作用。自從人類早期,設計就成為人們將抽象概念和想法轉換成具體信息的一種方式,比如他們用顏料塗抹在洞穴的牆壁上。它是我們人所以成為人的具體體現。維克托·帕涅克(Victor Papanek)在他1971年發表的書《Design for the Real World》裡面這麼說道:所謂設計的關鍵就是研究它是如何與人交互的方式。從這個意義上來說,將設計的學問融入到大數據中,將進一步發揮大數據造福世界的能力!

穹頂之上,它不僅僅意味著數字的堆砌和排列,而關鍵是如何去使用它們!

數據從目前來看,並不能稱得上有趣。但是在設計和視覺化的幫助下,它是可以做到這一點的。當我們將Data(大寫的數據)與故事和意願相結合,我們會變得更加優秀、聰慧、敏捷,並且能夠做出更加有效的預見性決策。當我們在面對受眾的時候能夠拿出足夠的簡潔、用心、以及同情,我們會獲得更多的目光,更多的人會願意加入進來。如果我們能夠收集正確的數據,過濾、分析以及通過某種智能的方式將其情境化,在基於某種邏輯的前提下去敘述它們,並且使之視覺化,那麼無論是小寫的data,又或者大寫的Data,都能夠在社會的各個層面轉化成更加有用的事物。

當「數據學」升級為「高級數據學」,其中包括了以上三個層面的知識:「情境化」、「敘述」和「設計」。那麼我們的社會,無論是政府政策、體育、金融、醫療、經濟、商業、又或者是政治或者教育,都將被它改造。在這個轉變的過程中,越來越多的人將帶著自己的知識背景加入進來。

 

文章來源:MediumTECH2IPO/創見 花滿樓編譯,譯文創見首發,轉載請註明出處。

文章內容屬作者個人觀點,不代表本站立場

大數聚

透過數據,我們聚集各領域的專家,檢視時下重要議題及產業趨勢。當我們聚在一起,用數據說話,說出有意義、有價值的新觀點。歡迎加入我們,一起用數據看世界。

留下您的想法