Geoffrey Hinton:我的五十年深度學習生涯與研究心法

語言: CN / TW / HK

來源|The Robot Brains Podcast

翻譯|沈佳麗、程浩源、許菡如、胡燕君、賈川

他從未正式上過計算機課程,本科在劍橋大學讀的是生理學和物理學,期間曾轉向哲學,但最終拿到的卻是心理學方向的學士學位;他曾因為一度厭學去做木匠,但遇挫後還是回到愛丁堡大學,並拿到“冷門專業”人工智慧方向的博士學位;數學不好讓他在做研究時倍感絕望,當了教授之後,對於不懂的神經科學和計算科學知識,他也總要請教自己手下的研究生。

學術道路看似踉踉蹌蹌,但Geoffrey Hinton卻成了笑到最後的那個人,他被譽為“深度學習教父”,並且獲得了計算機領域的最高榮譽“圖靈獎”。

Hinton出身在英國的科學“豪門”,但他一生所經歷的學術生涯和坎坷生活豐富而離奇。

他的父親Howard Everest Hinton是英國昆蟲學家,母親Margaret是一名教師,他們都是共產主義者。他的叔叔是著名的經濟學家Colin Clark,發明了“國民生產總值”這個經濟術語,他的高祖父是著名的邏輯學家George Boole,他發明的布林代數奠定了現代電腦科學的基礎。

在厚重的科學家家族底蘊薰陶下,Hinton從小擁有獨立思考能力以及堅韌品質,並且肩負著繼承家族榮譽的擔子。母親給了他兩種選擇,“要麼成為一名學者,要麼做個失敗者。”他沒有理由選擇躺平,即便讀大學時幾經折騰,但他還是完成了學業。

1973年,在英國愛丁堡大學,他師從Langer Higgins攻讀人工智慧博士學位,但那時幾乎沒人相信神經網路,導師也勸他放棄研究這項技術。周遭的質疑並不足以動搖他對神經網路的堅定信念,在隨後的十年,他接連提出了反向傳播演算法、玻爾茲曼機,不過他還要再等數十年才會等到深度學習迎來大爆發,到時他的這些研究將廣為人知。

博士畢業後,Hinton的生活也歷經困苦。他和第一任妻子Ros(分子生物學家)前往美國,並在卡耐基梅隆大學獲得教職,不過,由於對里根政府存有不滿,以及在人工智慧研究基本由美國國防部支援的情況下,他們於1987年前往加拿大,Hinton開始在多倫多大學電腦科學學院任教,並在加拿大高階研究所CIFAR開展機器和大腦學習專案的研究。

不幸的是,1994年,妻子Ros因卵巢癌逝世,Hinton只能獨自撫養由他們收養的兩個年幼的孩子,其中,兒子還患有注意力缺陷多動症(ADHD)和其他學習障礙。後來,他與現任妻子Jackie(藝術史學家)再婚,但類似的打擊再度逼近,Jackie前幾年也患上了癌症。

他本人也患有嚴重的腰椎疾病,這讓他無法像正常人那樣坐下,日常的大部分時間都必須站立工作,由此他也排斥坐飛機,因為起飛降落時都要求必須坐直,這也限制了他去外地做學術報告。

(從左到右依次為Ilya Sutskever、Alex Krizhevsky和Geoffrey Hinton)

經過近半個世紀的技術堅守和生活磨礪,終於,2012年曙光乍現,他與學生Alex Krizhevsky、Ilya Sutskever提出的AlexNet震動業界,就此重塑了計算機視覺領域,啟動了新一輪深度學習的黃金時代。

也是在2012年底,他與這兩位學生成立了三人組公司DNN-research,並將其以4400萬美元的“天價”賣給了Google,他也從學者身份轉變為Google副總裁、Engineering Fellow。

2019年,非計算機科班出身的AI教授Hinton,與Yoshua Bengio、Yann LeCun共同獲得了圖靈獎。

飽經風霜之後,這位已經74歲的“深度學習教父”依然奮戰在AI研究一線,他不憚於其他學者發出的質疑,也會坦然承認那些沒有實現的判斷和預言。不管怎樣,他仍然相信,在深度學習崛起十年之後,這一技術會繼續釋放它的能量,而他也在思索和尋找下一個突破點。

那麼,他對神經網路的堅定信念源自何處?在如今深度學習“撞牆了”的質疑聲中,他如何看待下一階段AI的發展?對於年輕一代的AI研究者們,他又有怎樣的寄語?

近期,在Pieter Abbeel主持的The Robot Brains Podcast節目中,Hinton非常坦誠地分享了自己的學術生涯,深度學習的未來和研究心得,以及拍賣DNN-research的內幕。以下是他的講述,由OneFlow社群編譯。

(8歲的Hinton)

對我影響最為深遠的是童年時所接受的教育。我的家庭沒有宗教信仰,父親是一名共產主義者,但考慮到私立學校的科學教育比較好,7歲時,他堅持送我去一所昂貴的基督教私立學校讀書,除了我,那裡所有的孩子都相信上帝。

一回到家,家人就說宗教都是胡扯,當然,可能因為我有較強的自我意識,我自己也不信,意識到信仰上帝是錯的,並且養成了質疑別人的習慣。當然,多年之後,他們也確實發現自己當初的信仰是錯的,並意識到上帝也許並不是真的存在。

不過,如果我現在告訴你要有信仰,信仰很重要,可能聽起來很諷刺,但我們確實需要對科學研究要有信仰,這樣即使別人說你是錯的,你也能在那條正確的道路上堅持走下去。

1

1970年代,研究神經網路“孤勇者”

我的教育背景很豐富。在劍橋大學讀大一那年,我是唯一一位同時修讀物理學和生理學的學生,這為我後來的科研生涯奠定了一定的理工科基礎。

不過,我數學不太好,只好放棄學物理,可是,我又很好奇生命的意義,於是轉而去學哲學,取得一定成績後,又開始修讀心理學。

在劍橋的最後一年,我過得很艱難,也不開心,所以一考完試就退學,去做一名木匠。其實,相比於做其他事情,我更喜歡做一名木匠。

高中時,白天上完課後,我回家就會做一些木工活,那是我最開心的時刻。慢慢地,我就成為了一名木匠,但大概做了六個月左後,就發現木匠掙得錢少得難以維生,儘管木匠需要做的事情遠比表面看到的要多。搞裝修輕鬆得多,來錢快,所以在做木匠的同時,我也會兼職裝修活計。除非你是一名高階木匠,否則做木匠賺的錢肯定不如做裝修。

直到一天,我遇到了一名真正出色的木匠,才意識到自己不適合這行當。一家煤炭公司讓這位木匠給陰暗潮溼的地下室做一扇門,鑑於環境特殊,他就將木料以反方向排列,以此來抵消木料因潮溼膨脹產生的變形,這是我此前從未想過的方式。他還可以用手鋸將一塊木料切成正方形。他向我講解道:要是想將木料切成正方形,那麼你必須將鋸床和木料跟房間對齊。

當時我就感覺,跟他相比自己差得太遠了,就想或許還是回學校研究人工智慧吧。

後來,我就去愛丁堡大學攻讀神經網路的博士,導師是著名的Christopher Longute-Higgins教授。30多歲時,他就弄清了硼氫化物的結構,差點因此獲得諾貝尓獎,真的很厲害。直到現在,我仍然不清楚他研究的是什麼,只知道是跟量子力學有關,這項研究的事實基礎是“恆等運算元的旋轉不是360度,而是720度”。

他曾經對神經網路和全息圖之間的關係很感興趣,只是在我到愛丁堡大學後,他突然對神經網路失去了興趣,主要是因為他讀了Winograd(美國電腦科學家)的論文後被徹底說服了,認為神經網路沒有發展前景,而是應該轉做符號人工智慧,那篇論文對他影響挺大的。

事實上,他並不贊同我的研究方向,想讓我做一些更容易獲獎的研究,但他的為人不錯,仍然告訴我要堅定自己的方向,也從未阻止我去研究神經網路。

(Marvin Minsky和Seymour Papert)

1970年代初,身邊的所有人都質問我,Marvin Minsky和Seymour Papert都說神經網路前途渺茫,為什麼還要堅持下去?說實話,我感覺很孤獨。

1973年,我第一次給一個小組做演講,內容就是關於如何用神經網路做真正的遞迴。在第一個專案中,我發現,如果你想讓神經網路繪製圖形,將圖形分割成多個部分,並且這些圖形的部分都能被類似的神經硬體繪製出來,那麼儲存整個圖形的神經中樞就需要記住整體圖形的位置、方向和大小。

如果正在繪製圖形的神經網路突然停止運行了,你想使用另一個神經網路來繼續繪製圖形,那麼就需要有地方來儲存這個圖形以及工作進度,然後可以繼續繪製工作。現在的難點在於,如何使神經網路實現這些功能。顯然,僅僅靠複製神經元是不行的,因此我想設計一個系統通過快速權重(fast weight)來實時適配並記錄工作進度。如此一來,通過恢復相關狀態(state),就可以繼續完成任務。

因此,我建立了一套神經網路,通過重用相同的神經元和權重來執行遞迴呼叫(就像用於高階呼叫一樣),以此來實現真正的遞迴。但是,我不擅長演講,所以感覺可能並沒有人理解我演講的內容。

他們說,明明可以使用Lisp遞迴,為什麼要在神經網路中進行遞迴。他們不知道的是,除非神經網路能夠實現遞迴之類的功能,否則有一大堆事情無法解決。 現在,這又成為了一個有趣的問題,所以我還要再等一年,直到這個問題成為一個擁有50年曆史的古董,然後我寫了一份關於快速權重的研究報告。

那時,也不是所有人都反對神經網路。如果再往前追溯到1950年代,如馮·諾依曼和圖靈這樣的研究者還是很相信神經網路,他們都對大腦的工作方式很感興趣,特別是圖靈,很相信神經網路的強化訓練,這也讓我對自己的研究方向很有信心。

可惜他們英年早逝,若是能多活幾年,他們的智慧足以影響一個領域的發展,英國在這方面可能早已取得突破,說不定人工智慧的現狀也會大有不同。

2

從純粹的學者轉變為Google員工

去Google工作的主要原因是,我的兒子患有殘疾,我得為他掙錢。

2012年,我覺得在Coursera上講課能掙到很多錢,所以就開設了神經網路相關課程。早期的Coursera軟體並不好用,加上我自己並不太擅長操做軟體,因此我時常感到煩躁。

最初我與多倫多大學達成了一項協議,如果這些課程能賺到錢的話,那麼大學會把到手的錢分一部分給講課老師。雖然他們沒有明確說具體的分成比例,但有人說是對半分,我也就欣然接受了。

在錄課過程中,我曾要求過學校幫我錄製影片,但他們卻反問我,“你知道製作影片有多貴嗎?”我當然知道,因為我自己一直在製作影片,校方還是沒有提供任何支援。然而在我開課之後(當時我已經騎虎難下了),教務長在沒有諮詢我和其他任何人的情況下就單方面決定學校會拿走所有的錢,而我則一分錢也拿不到,這就完全違反了當初的協議。

他們讓我好好錄課,並說那本就是我教學工作的一部分,但那實際上並不屬於我的教學範疇,而只是基於我之前做過的相關講座的課程。因此,我在後續的教學工作中再也沒有用過Coursera。那件事讓我很生氣,甚至開始考慮是否要從事其他的職業。

就在此時,突然有很多公司向我們丟擲了橄欖枝,願意贊助一大筆經費,或者支援我們創立一家公司,這說明還是有很多公司對於我們的研究內容很感興趣。

鑑於州政府已經給過我們一筆研究經費,我們也不再想賺外快,還是把精力放在自己的研究上。但那次學校騙我賺錢的經歷不禁讓我萌生想多賺點錢的想法,所以後來把成立不久的DNN-research拍賣了。

這樁買賣發生在2012年12月的NIPS(神經資訊處理系統大會)期間,會議在塔霍湖邊的一個娛樂場所舉辦,地下室裡燈光閃耀,一群光著膀子的賭徒在煙霧繚繞的房間裡盡情高呼,“你贏了25000,這些都是你的”......與此同時,樓上進行拍賣一家公司。

當時就像在演電影,與社交媒體上看到的情形一模一樣,真的很棒。我們之所以拍賣公司,是因為我們完全不知道自身的價值,所以我就諮詢了一個智慧財產權方面的律師,他說,現在有兩個辦法:一是直接僱一名專業的談判員去和那些大公司談判,但這可能會遇到不愉快;二是發起一場競拍。

據我所知,像我們這樣的小公司進行拍賣在歷史上還是第一次。最終我選擇通過Gmail進行競拍,因為那年夏天我一直在Google工作,我知道他們不會隨意竊取使用者的郵件,即使到現在,我還是這樣認為的。但對於我們這一決定,微軟表現出不滿。

拍賣過程如下:參與競拍的公司必須通過Gmail將他們的報價發給我們,然後我們再將其連同Gmail的時間戳傳送給其他參與者。起拍價為50萬美元,然後有人出價100萬美元,看到競價不斷上漲時,我們真是太高興了,同時也意識到我們的價值遠比預想的要高。當競價達到一定程度時(當時我們認為是天文數字了),我們更傾向於在Google工作,於是叫停了拍賣。

來Google工作是一個正確的選擇,到現在我在這兒工作了九年。等我在這裡工作滿十年,他們應該會給我頒個獎,畢竟在這兒工作這麼久的人屈指可數。

相比其他公司,人們都更喜歡在Google工作,我也一樣。我喜歡這家公司的主要原因是Google Brain團隊很棒。我更專注於研究如何構建大型學習系統和研究大腦的工作機制,Google Brain不僅有研究大型系統所需要的豐富資源,還能跟眾多優秀人才交流學習。

我屬於那種直性子,而Jeff Dean是一個聰明人,跟他相處很愉快。他想讓我做一些基礎研究,嘗試提出新的演算法,而這正是我喜歡做的事。我不擅長管理大型團隊,相比之下,我更樂意將語言識別的精度提升一個百分點,為這個領域帶來一場新的變革是我一直想做的事。

3

深度學習的下一個大事件

深度學習的發展取決於,在擁有海量資料和強大算力的大型網路中做隨機梯度下降,基於此,一些想法得以更好地生根發芽,比如隨機失活(dropout)和現在的很多研究,但這一切離不開強大算力、海量資料以及隨機梯度下降。

經常有人說深度學習遇到了瓶頸,但事實上它一直在不斷向前發展,我希望懷疑論者能將深度學習現在不能做的事寫下來。 五年後,我們會證明深度學習能做到這些事。

當然,這些任務必須經過嚴格定義。比如Hector Levesque(多倫多大學計算機系教授)是一個典型的AI人士,他本人非常優秀。Hector制定了一個標準,即Winograd句子,其中一個例子是,“獎盃不適合放在手提箱中,因為它太小了;獎盃不適合放在手提箱裡,因為它太大了。”

如果你想把這兩句翻譯成法語,必須明白在第一種情況下,“它”指的是手提箱,而在第二種情況下,“它”指的是獎盃,因為它們在法語中是不同的性數(genders ),而且早期的神經網路機器翻譯是隨機的,所以當機器把上述句子翻譯成法語時,機器無法正確識別性數。但這種情況一直在改進,至少Hector給神經元下了一個非常明確的定義,指出神經元可以做什麼。雖然做的並不完美,但這樣至少比隨機翻譯要好得多。我希望懷疑論者能提出更多類似的質疑。

我認為,深度學習這種非常成功的正規化將繼續保持繁榮:即根據一些目標函式的梯度來調整大量的實值引數,但我們很可能不會使用反向傳播機制來獲得梯度,而目標函式可能會更加區域性和分散。

我個人猜測,下一個AI大事件肯定是脈衝神經網路的學習演算法。 它能夠解決是否進行脈衝的離散判定,以及何時進行脈衝的連續性決策,這樣就可以利用脈衝時間來進行有趣的計算,這在非脈衝神經網路中其實很難做到。之前沒能深入研究脈衝神經網路的學習演算法,這是我研究生涯的一大遺憾。

我沒打算研究AGI,也儘量避免定義什麼是AGI,因為AGI願景背後有各種各樣的問題,而僅僅通過擴大帶引數的神經元數量或神經連線還無法實現通用人工智慧。

AGI設想了一個類似人類的智慧機器人,它和人類一樣聰明。我不認為智慧一定會這樣發展,而是希望它更多地以共生方式發展。我認為,也許我們會設計出智慧計算機,但它們不會像人類一樣擁有自主意識。如果它們的目的是用來殺死其他人,那它們可能必須得有自主意識,但希望我們不會往那個方向發展。

4

相信研究直覺,好奇心驅動

每個人的思維方式都有所不同,我們不一定了解自己的思維過程。我喜歡按直覺行事,更傾向於在做研究時運用類比,我認為,人類推理的基本方式是基於在大向量中利用正確的特徵來進行類比,我本人也是這樣做研究的。

我經常在電腦上對某一研究反覆進行試驗,來看看哪些有用,哪些沒用。弄清事物的數學底層邏輯和進行基礎研究確實很重要,進行一些論證也很有必要,但這些不是我想做的事。

做一個小測試:假如現在NIPS會議上有兩場講座,一場是關於用一種全新、聰明和優雅的方法來證明一項已知的結論;另一場則是關於一種新的、強大的學習演算法,但演算法背後的邏輯暫時無人知曉。

如果你必須在這兩場講座中選擇一場去聽講座,你會做何選擇?相比第二場講座,第一場可能更容易被人們所接受,大家似乎更好奇證明已知事物的新方法,但我會去聽第二場,畢竟在神經網路領域,幾乎所有的進步都源於人們在進行數學推演時瞬間萌生的直覺,而非常規推理。

那麼你是否要相信自己的直覺?我有一個標準——要麼你有敏銳的直覺,要麼乾脆沒有。如果沒有敏銳的直覺,那做什麼都沒關係;但如果有敏銳的直覺,那應該相信直覺,去做你認為對的事。

當然,敏銳的直覺源自你對世界的理解以及大量的辛勞付出。當你在同一件事上積累了大量經驗,就會產生直覺。

我患有輕微的狂躁抑鬱症,所以一般會遊走在兩種狀況之間:適當的自我批評會讓我非常有創造力,而極度自我批評會讓我產生輕度抑鬱。但我認為這樣比僅有單一情緒的效率更高。當你感到煩躁時,你只要忽視那些顯而易見的問題,並且確信一些有趣的、激動人心的東西正等你去發現,繼續前進。當你面對問題感到措手不及時,一定要堅持下去,理清思路,仔細斟酌想法的好壞。

由於有這樣的情緒交替,我經常會告訴大家,我弄清大腦的工作機制了,可過段時間,我又失望地發現之前的結論是錯誤的,但事情就應該是這樣發展的,正如William Blake的那兩句詩,“將快樂和憂傷編織,披在我神聖的心上”。

我認為科研工作的本質也是如此,如果你不會因為成功而感到興奮,也不會因為失敗而感到沮喪,那算不上真正意義上的研究者。

研究生涯裡,儘管有時會覺得自己完全摸不著一些演算法的門道,但我還從未真正感到迷茫和毫無希望。在我看來,無論最終結果如何,總有值得去做的事情。優秀的研究人員總是有很多想做的事情,只是苦於沒有多餘的時間。

在多倫多大學任教時,我發現電腦科學專業的本科生都很優秀,而很多輔修電腦科學的認知科學專業的本科生也表現得相當出色,這一部分同學並不擅長技術,但他們仍然把研究做得很好,他們熱愛電腦科學,非常想弄清人類的認知如何形成,有著源源不斷的興趣。

像Blake Richards(蒙特利爾神經學研究所助理教授)這樣的科學家,他們很清楚自己想解決什麼問題,然後就只管朝著這個方向前行。現在,很多科學家都不知道自己到底想做什麼。

回頭看,我覺得年輕人要找到自己感興趣的方向,而不是單純地學些技術。 在自身興趣的驅動下,你會主動去掌握一些應有的知識來尋找你想要的答案,這比盲目地學習技術更重要。

現在想想,我年輕時就應該再多學一點數學知識,這樣做線性代數就會容易很多。

數學時常讓我感到絕望,導致很難讀懂一些論文,尤其要弄懂那一大堆符號,真是一項莫大的挑戰,所以我並沒有讀太多論文。關於神經科學方面的問題,一般我會向Terry Sejnowski(計算神經學教授)請教,電腦科學方面的問題,我會請研究生解釋給我聽。當我需要用數學來證明某項研究是否可行時,我也總能找到合適的方法。

通過做研究讓這個世界變得更美好的想法很不錯,但我更享受探索人類創造力上限的樂趣,我真的很想了解大腦的工作機制,我相信我們需要一些新的想法,比如通過脈衝神經網路的學習演算法瞭解大腦的運作方式。

我認為,最棒的研究工作應該由一大群研究生來完成,並且給他們提供豐富的資源。科研工作需要年輕的活力,源源不斷的動力,以及對研究的強烈興趣。

你必須有好奇心的驅動才能做出最好的基礎研究。只有這樣,你才有動力去忽視那些明顯的障礙,去預估自己會取得怎樣的結果。如果是一般性研究,創造力就不是最重要的。

如果能弄清一大批聰明人正在研究什麼,然後你再去做不一樣的研究,總是一個好主意。 如果你已經在某個領域取得一定的進展,那就不需要其他新的想法,只需要將現有的研究深挖下去就可以成功。但如果你想研究一些新想法,比如構建大型硬體,那也非常不錯,儘管前路可能有些曲折。

(本文經授權後編譯釋出,原影片:

1.http://www.youtube.com/watch?v=4Otcau-C_Yc

2.http://www.youtube.com/watch?v=2EDP4v-9TUA)

\ 歡迎下載體驗 OneFlow v0.7.0 最新版本:\ http://github.com/Oneflow-Inc/oneflow/