大數據與深度學習是一種蠻力?

首圖來源:squarespace

Facebook去年底挖來了一個機器學習大神Vladimir Vapnik,他是統計學習理論和支持向量機的主要發明者。Vladimir Vapnik被稱為統計學習理論之父,他出生於俄羅斯,1990年底移居美國,在美國貝爾實驗室一直工作到2002年,之後加入了普林斯頓的NEC實驗室機器學習研究組,同時任哥倫比亞大學特聘教授。2014年,Vladimir Vapnik加入Facebook人工智能實驗室。

(image source :leiphone)

 

近日,Vladimir在俄羅斯最大的搜索引擎公司Yandex的大會上發表了談話,重點討論了深度學習是否以蠻力取勝。來自加利福尼亞大學圣地亞哥分校的Zachary Chase Lipton博士詳細記錄了會議內容,並整理成了文章:

上周,我來到柏林參加機器學習展望和應用大會。這個大會由Yandex舉辦,主要談了Deep Learning和Intelligent Learning兩個問題,它們經常作為對比的概念出現。

雖然我自己也是演講者之一,但是整個會議的高潮部分,還是關於深度學習的方法論,其中經驗主義和數學推理中的矛盾部分。

第一條是關於深度學習,討論的是背後的數學支撐,以及未來的方向。問題包括了模型的可解釋性和醫療領域的應用。到了周三晚上,Vladimir Vapnik也參與了討論,說的是知識如何在不同的個體之間傳遞。Vladimir的哲學觀橫跨了機器學習、數學和智能的源頭,並且挑戰了深度學習的方法論,這很有爭議。

其實在今年夏天,我就寫文章說機器學習的成功是大數據時代經驗主義的勝利。在裡面我強調說,過度去擬合數據,雖然能在真實數據中得到檢驗,但裡面會有很大風險,至少比基於數學推理建立的系統風險大得多。在這次會議中,我聽到了Vladimir在這方面的觀點。

為了避免混淆視聽,我得強調:我是一個深度學習的實踐者。我個人並不否認深度學習,而且對它的先行者和火炬手充滿尊敬。但我也同樣相信,我們應該對深度學習的可能性抱有開放性的態度:

即會有一些數學模型,能夠更好的指明未來發展方向,開啟新的方法論。

很顯然,當我們去咀嚼和消化這些觀點的時候,能夠得到很大的價值。

(image source :leiphone)

 

大數據與深度學習是一種蠻力?

盡管Vapnik當場說了很多觀點,但是最核心的還是援引了愛因斯坦關於上帝的隱喻。簡單的說,Vapnik假設了一個理論:想法和直覺要嘛來自上帝,要嘛出自魔鬼。而區別在於,上帝是智慧的,而魔鬼往往不是。

在作為數學家和機器學習研究和踐行者的生涯中,Vapnik得出了一個結論:魔鬼往往來自於蠻力(Brute Force)。進一步說,如果承認深度學習系統在解決問題時不可思議的表現,那麼大數據和深度學習,都有某種蠻力的味道。

不過,我自己並不同意深度學習必須等同於機器蠻力。我們如今也能看到對於大數據的觀點爭論,其中Vapnik和Nathan Intrator教授就說:小孩不需要幾億的標籤樣本以完成學習。雖然有大量帶有標籤的數據時,學習會成為一件比較容易的事,但如果依賴這樣的方法,我們就錯失了自然界中關於學習的基本原理。

也許,真正的學習只需要數百樣本,而我們現在卻只有非常大的數據量才能完成學習。如果我們不去探尋學習的本質,那就是在屈從於懶惰。

我們現在的深度學習並非科學。確切的說,機器學習和核心任務是理解計算本身,而現在的方法和它有所背離。這就好比任務是製造小提琴,而我們扮演的角色不過是小提琴演奏者,雖然也能創作美妙的音樂,也有演奏的直覺,但我們並不知道小提琴如何創造出音樂。

進一步說,很多深度學習實踐者,他們對數據和工程有很好的感覺,但其實不知道這里頭是怎麼回事。所以在目前的深度學習方法中,參數的調節方法依然是一門「藝術」,而非「工藝」。

 

(image source :leiphone)

 

在算法和模型上,我們是否能發明所有東西?

Vapnik認為,在機器學習的算法和模型上,我們並不能發明所有東西。他堅持說,他自己並沒有如此的聰明才智,以完成這些算法模型的發明。(這似乎也在暗示,其他人也沒有那麼聰明,去發明這些玩意兒‧‧‧‧‧‧)

按照Vapnik的意思,我們在機器學習上發明的東西是微不足道的。真正重要的東西,來自於我們對數學本質的理解。就深度學習來說,模型經常被發明出來、品牌化並申請專利,但這些相比於真正由數學驅動的機器學習,就顯得很一般了。

關於深度學習的反思,來自紐約州立大學的顧險峰教授也有很多理解。顧險峰認為,深度學習方法深刻地轉變了學術研究的方式。以前學者們所採用的觀察現象,提煉規律,數學建模,模擬解析,實驗檢驗,修正模型的研究套路被徹底顛覆,被數據科學的方法所取代:收集數據,訓練網絡,實驗檢驗,加強訓練。

在深度學習新方法下,嚴格的數學推理缺失了。比如說地圖四色定理的證明,數學家將平面圖的構型分成1936種,然后用計算機逐一驗證。當然在足夠的算力下,這可以證明地圖四色定理。但是在這個過程中,沒有新穎概念提出,換言之,機械蠻力代替了幾何直覺。

而在數學歷史上,對于一個著名猜想的證明和解答,答案本身也許並不重要,在尋找證明的過程中所凝練的概念,提出的方法,發展的理論才是真正目的所在。機械定理證明驗證了命題的真偽,但是無法明確地提出新的概念和方法,實質上背離了數學的真正目的。

所以說,這是一種「相關性」而非「因果性」的科學。歷史上,人類積累科學知識,在初期總是得到「經驗公式」,但是最終還是尋求更為深刻本質的理解。例如從煉丹術到化學、量子力學的發展歷程。

人類智能最為獨特之處也在於數學推理,特別是機械定理證明,對於這一點,機器學習方法是無能為力的。當人的數學推理缺失的時候,僅僅依靠機器蠻力,就會遇到很大的制約。

(image source :leiphone)

本文轉載自雷鋒網

文章內容屬作者個人觀點,不代表本站立場

大數聚

透過數據,我們聚集各領域的專家,檢視時下重要議題及產業趨勢。當我們聚在一起,用數據說話,說出有意義、有價值的新觀點。歡迎加入我們,一起用數據看世界。