「反捲鬥士」許華哲:以熱愛為名,用深度強化學習打造一個「機器廚子」

語言: CN / TW / HK

十年前,他以本科生的身份走入清華電子系;十年後,他將以一名教師的身份重回清華,在叉院開啟新的篇章,傳遞知識,探索真理。

作者 | 李梅

編輯 | 陳彩嫻

想象一下:

在未來的某一天,你,一個996的「社畜」,或「上班狗」,辛苦一天回到家,癱倒在沙發上。當你抬頭一看,你的機器人朋友正在廚房為你做晚飯——它的雙手敏捷靈活,在油鹽醬醋與鍋碗瓢盆之間,一頓優雅操作,不久便有陣陣香氣撲鼻而來。它把晚餐端到餐桌上,對你微微一笑:「開飯啦!」然後轉身拿起你換下的衣物走向洗衣機......

這不是一篇小學生的科幻小作文,而是許華哲作為一位機器人學研究者關於未來機器人的想象:「我希望能有一個真正通用的機器人,它什麼都能做,或者至少能為人類完成家居場景裡的大部分任務。」

最近,他在走向通用機器人的這條路上又前進了一步:想要機器人為我們包餃子、卷壽司?先讓機器人從學習捏橡皮泥開始吧!

不久前,許華哲團隊的一篇論文被機器人學頂會RSS接收。這項工作提出了一種機器人系統,叫「RoboCraft」,將感測器資料轉換為粒子,使用圖神經網路學習基於粒子的動力學模型,對機器人進行行為控制,實現了機器人操作柔性物體的目標。

論文地址:http://arxiv.org/pdf/2205.02909.pdf

這個RoboCraft框架有三個元件,一個是基於粒子的場景對模組進行表示,從而「看到」橡皮泥;二是基於GNN模型,模擬物件的動力學;三是一個基於梯度和取樣的模型預測控制模組,學習如何對一塊橡皮泥進行塑形。

圖注:機器人將橡皮泥捏成字母A和X的形狀

實驗表明,無論是在模擬器、還是在真實世界中,這個基於模型的規劃框架在測試任務上的表現都可以與人類相當,甚至比人類做得更好。

圖注:RoboCraft與人類在捏橡皮泥任務上的對比。在模擬器中,人用滑鼠和鍵盤控制機械臂。

圖注:RoboCraft與人類在捏橡皮泥任務上的對比。在真實世界中,人直接操縱機械臂。

當然,這只是許華哲征服機器人星辰大海之路上的一片碎小星光。

許華哲本科畢業於清華大學電子工程系,後在加州大學伯克利分校攻讀博士,目前在斯坦福大學從事博士後研究,指導教師為計算機視覺領域的知名新秀吳佳俊。他對AI科技評論表示,今年秋季,他將回到母校清華,成為清華大學交叉資訊研究院(也就是「姚班」)的一名教師。

關於機器人的美好願景雖然由來已久,但許華哲並非一開始就專攻機器人學。從本科到博士後階段,一路上,他的科研方向經歷了有跡可循的轉變:本科大三去多倫多大學交換時第一次接觸計算機視覺,到伯克利讀博期間結合視覺做自動駕駛,最終轉向將強化學習應用於機器人學。

每一次轉變,許華哲都越來越接近他所追求的通用人工智慧和通用機器人。

1

初識計算機視覺

2012年,許華哲從東北師大附中畢業,通過物理競賽保送到清華大學電子工程系,就讀電子資訊科學與技術專業。

圖注: 本科入學前的許華哲

當時,清華大學的物理系、電子系和建築系是物理競賽保送生的三大熱門去向,許華哲基於自己的學科興趣選擇了電子系。他解釋說:「我當時的想法比較稚嫩,就覺得電子系離新一代的IT技術很近。」而且,在高中時期,他就瞭解到清華對電子系開設了很多偏重物理的課程,其他相關院系(如資訊科學技術學院)則沒有這樣的課程設定。因此,對於擅長物理的許華哲來說,電子系無疑是最好的選擇。

從東北的長春來到「帝都」北京,雖然未來的方向尚不明朗,但許華哲內心隱隱感到,在清華這樣一個廣闊的天地,他將大有作為。

「其實我並沒有想到我一定要做什麼,或者我一定要解決一個什麼樣的問題,但我有一個大致明確的主線,就是希望以後可以讀一個博士。」許華哲這樣回憶他初入清華時的心態。

這樣的期許也來源於周圍清華人對他的感染。清華從來不乏在各個領域發光發熱的個體:天資聰穎的驕子,勤奮努力的追趕者,玩轉社團與實踐的達人......在這樣一種包容參差、鼓勵多樣的環境裡,許華哲選擇了一種「玩得開心」但也始終向前的道路:加入藝術團鍵盤隊繼續發展對音樂的愛好,與學生會的夥伴一起策劃活動,跟同學一起熬夜趕作業,和好朋友一起去玩耍吃烤串,等等。

而對於一位被錄取到頂尖學府的保送生,優秀必然已經成為一種習慣。所以,看似鬆弛的狀態,也並沒有耽誤許華哲在學習上窮追猛打、將課程績點排到年級前2%。雖然不及他口中那位期末期間邊打遊戲邊複習、最終還能考到年級第一的室友,但他自己在學業上也並不遜色太多。

圖注: 許華哲在清華

至於科研,許華哲回憶,在清華時,他只是在通訊研究所的實驗室跟隨老師做過一段時間的科研。他坦言,由於課業壓力較大,加上課外活動所佔去的精力,「科研自然就做不動了」。直到大三上學期,許華哲去多倫多大學交換,才開始科研上的更多探索。在那裡,他第一次接觸到計算機視覺,並進一步體會到做科研的樂趣。

圖注:多倫多大學

2014年秋,許華哲赴加拿大多倫多大學進行一個學期的交換與學習生活。在那裡,他修讀了電子與計算機工程系的四門課程:計算機視覺、數字訊號處理、隨機過程和作業系統,其中,「計算機視覺」這門課的描述尤其吸引他,就這樣,他開始了與計算機視覺的初遇。而在此之前,許華哲連「計算機視覺」是什麼都不知道。

為什麼會被計算機視覺這個方向所吸引?這與許華哲自身的個性和科研思維傾向或許是分不開的。在他看來,相比於其他研究方向,計算機視覺研究所產出的結果是很直觀的,比如,用視覺可以將一幢樓的窗戶清晰地分割、檢測出來,這其中的實現過程和結果呈現都是直接的。這讓直覺型思維的許華哲覺得是一種「好玩的科研」。

於是,許華哲興致勃勃地向講授計算機視覺這門課的 Sanja Fidler 教授表明自己想跟她做科研。Sanja Fidler 很認可他的課程表現,欣然同意。

圖注:Sanja Fidler

儘管當時他只是一個本科生,但許華哲能夠感受到,Sanja Fidler 完全把他看作是一位「科研工作者」,雙方都很認真、嚴肅地談論研究工作。在一個做了半年的專案中,許華哲運用深度學習讓 AI 模型學習人類對於汽車型別(如外形、顏色等)的偏好,從而完成模型對汽車外觀打分的任務。這個專案成了他 在人工智慧科研路上邁出的第一步。

交換結束後,許華哲回到了清華。這段短暫的科研經歷,雖然與機器人研究並無直接關聯,卻對他之後選擇科研方向產生了直接的影響。與在計算機視覺方向上尋求直觀性類似,許華哲後來又在自動駕駛、機器人學方向上看到了更強的直觀性,從而逐漸將興趣轉移到了可控制的、運動的智慧體上。

2

從自動駕駛到機器人研究

2016年,許華哲赴美國加州大學伯克利分校讀博,開始了走向機器人學的科研探索之路。

自動駕駛:自己做自己的導師

在申請加州大學伯克利分校的博士之前,許華哲先去那裡做了三個多月的暑期科研實習,他當時實習的組正是後來他讀博所在的組。

注: 許華哲在伯克利做暑期科研實習

大三結束那年的暑假,在 Sanja Fidler 的舉薦下,許華哲去了伯克利實習。期間,他與在伯克利讀博的胡戎航師兄、Trevor Darrell教授等人合作,完成了一篇視覺-語言(vision-language)方向的論文(“Natural Language Object Retrieval”)。這項工作旨在解決自然語言物件檢索的任務,通過基於物件的自然語言查詢來定位一個目標物件。論文後來被 CVPR 2016 錄取為 Oral Paper。

論文地址:http://arxiv.org/pdf/1511.04164.pdf

暑期實習結束後,許華哲開始著手申請博士專案。他希望能留在伯克利繼續讀博,但對於Darrell教授是否滿意自己在實習期間的表現,他心裡是沒有底的。每年去伯克利進行暑期實習的學生都不勝列舉,而博士申請存在競爭和不確定性,所以,除了伯克利,許華哲也申請了其他幾所學校。不過,最終還是如人所願,他收到了伯克利的錄取通知,便決定繼續留在 Darrell 的組裡攻讀博士。

談起自己的博士導師,許華哲認為自己很幸運:「我的導師在指導學生方面非常寬鬆,對我們的研究方向不加任何限制。他覺得,只要我做的事情是自己真正感興趣的,我就可以去做,他會全力支援我。」

圖注:Trevor Darrell

Darrell 非常鼓勵許華哲去自由地探索。在他對科研方向感到迷茫的時候,Darrell 會對他說:「你可以都試試。」或者是,「你覺得什麼研究做出來會很好玩、很酷,你就去做什麼研究,不用去想什麼研究能給你帶來更多的收益。」

導師的這種指導風格促使他在博士初期選擇了「離經叛道」的科研方向。入學後, 他做的第一個專案是自動駕駛方向,而這個方向無論是對於許華哲還是 Trevor Darrell 來說,都是一個新領域。 Darrell 主要研究計算機視覺,當時組裡在做的課題主要是域遷移與視覺-語言(vision-language)。原本,許華哲可以跟隨導師專攻這兩個方向,但導師建議他去嘗試自動駕駛。

2016年,自動駕駛如日中天。產業界摩拳擦掌,紛紛入局。在美國,通用汽車以10億美元的價格收購了Cruise;在德國,Uber與戴姆勒汽車集團開始在自動駕駛領域展開合作;中國的滴滴也開始組建自動駕駛公司。在學術界,各個實驗室也開始積極投入研究,想要在自動駕駛領域中開拓和佔領一席之地。

在這樣的背景下,此前對自動駕駛並沒有予以太多關注的 Darrell,也產生了新開一個自動駕駛研究方向的想法,而這個「開新坑」的任務落到了許華哲身上。

許華哲也不推脫,話不多說,就開始了自動駕駛方向的探索。由於 Darrell 在該領域沒有太多可傳授的經驗,所以在大多數時候,許華哲是自己給自己當「導師」,而 Darrell 則從視覺的角度給他提供了很多技術上的幫助。

許華哲的嘗試很快得到了回報。當時還是一年級博士生的他,與博士導師、師兄高陽和博士後研究員Fisher Yu等人合作,完成了一個自動駕駛專案,並以第一作者的身份發表了論文(“End-to-end Learning of Driving Models from Large-scale Video Datasets”),被錄取為2017 CVPR Oral 論文。

論文地址: http://arxiv.org/pdf/1612.01079.pdf

這項工作探索瞭如何從視覺的角度通過深度學習來實現自動駕駛。以往的深度學習方法受到資料量的限制,侷限於固定場景和模擬環境。為了解決這個問題,許華哲與團隊介紹了一個不依賴執行機構的自動駕駛通用模型,採用端到端的訓練方式,從大規模眾包影片資料中學習,實現了更好的泛化效能。而且,他們還公佈了當時市面上時長最長、場景最豐富的自動駕駛資料集BDDV(Berkeley DeepDrive Video dataset)。

圖注 博一年級的許華哲在CVPR上作報告

將計算機視覺與自動駕駛相結合的研究,讓許華哲離機器人學更近了一步。 相比於純靜態的視覺研究,許華哲更傾心於動態的智慧體,比如可以無人駕駛的智慧汽車和運動的機器人。

從強化學習出發研究機器人

那麼,如何做機器人?如何實現讓一個機器人去感知周遭世界的資訊,並像人類一樣去實施決策和控制?

許華哲選擇了深度強化學習這條路線:在機器人學的模擬器裡做強化學習演算法的開發,控制機器狗、機械臂和機械手等智慧體去完成一系列任務。他篤信,在一些傳統機器人學無法解決的任務難題上,強化學習大有用武之地。

傳統的機器人學發展多年,已經取得了令人矚目的成果。例如,經常能在公眾視野中收割一大波粉絲的波士頓動力機器狗,在每一次「進化」中都能獲得令人意想不到的酷炫新技能。但是,願景有餘,落地不足,這仍是機器人領域的一大挑戰。把一臺計算機的棋藝調教到世界第一的水平是容易的,但要教會一個機器人從一堆碎石爛瓦中穿行而不跌倒,卻要困難得多,因為在這兩類任務中,機器所需的「智力水平」與人類正相反。

在那些看似簡單、實際卻很複雜的任務中,傳統的方法難以派上用場。比如,在繫鞋帶這個任務中,如果用傳統的方法,在鞋帶上的每一處都安裝控制器、從而使其對機器人來說可移動,這顯然是不現實的。繫鞋帶這樣的任務需要一種「欠驅動機器人」(Underactuated Robotics)系統才能實現。許華哲認為,強化學習具有解決這類問題的潛力。 強化學習的優勢在於,它本質上是一個通過不斷嘗試犯錯、從而獲得反饋的搜尋過程,在這個過程中,它很有可能會搜尋到一些傳統方法根本想象不到的解決方案。

在攻讀博士的大部分時間以及博士後研究期間,許華哲都在專攻將強化學習應用於機器人學的研究。當他在這條賽道上真的跑出一些較為滿意的成績後,他更加相信和看好強化學習這一方法論的未來前景。

事實上,目前強化學習並未被大規模地運用於各種機器人任務當中。這其中最大的「攔路虎」是什麼?許華哲的回答是: 資料複雜度。

通常來說,為了學到一個好的策略,強化學習需要進行大規模的試錯,這就要求要有非常大的資料量。這是由強化學習演算法的本質所決定的。解決這個問題的關鍵在於提高對資料的利用率,方法無非有兩個:「開源」和「節流」。

許華哲在自己的研究中採用了三種路徑來解決資料複雜度的問題: 模擬器(simulator)、基於模型的強化學習(MBRL)和離線強化學習(Offline RL)。 前兩者屬於開源,後者則屬於節流。

對資料量的需求在計算機模擬器裡比較容易實現。在真實世界中,機器人是以客觀物理時間而執行的,所以無法採用一些方式去加速,而計算機能夠以很快的速度去執行模擬器。而且,物理模擬器能夠為機器人提供一個安全且廉價的虛擬操場,讓機器人在其中利用相關技術習得物理技能,然後轉移到真實世界中去。在一個四足機器人的專案中,許華哲團隊就利用了這種Sim-to-Real(從模擬到現實)的方法,通過強化學習的手段,在模擬器中對機械狗做大規模的訓練和域隨機化,然後將它從模擬環境轉移到真實世界中去做測試。

圖注:機械狗在室外行走、避障

由於機械狗可以在模擬環境中預先熟悉各種地形,所以能夠適應更富有挑戰性的真實環境。比如,當地形從草地轉換為山地時,這隻機械狗並不會「慌張」,因為它已經被提前訓練地很擅長應對地形變化,所以在山地也能「如履平地」地跑步和避障。這篇論文被ICLR 2022接收。

論文地址: http://arxiv.org/pdf/2107.03996.pdf

不過,這種學習方式對模擬器的要求非常高,由於模擬環境並不能完全匹配真實世界,在模擬環境中訓練的控制策略可能會在真實硬體上遭遇測試失敗。所以,許華哲認為,模擬器做得越真實越好,無論是視覺上(看起來)還是物理運動規律上(感覺起來),如果模擬環境都能做得很逼近現實,那麼強化學習就有可能從模擬器走到現實世界。

在做強化學習的時候,我們還可以讓智慧體從預先採集好的資料中去學習策略,而不一定要與真實世界進行實時互動,這便是「離線強化學習」。離線強化學習具有降低成本的優點,還可避免線上學習的高風險性。在博士後研究期間,許華哲與潘玲(姚班博士生)、黃隆波(姚班副教授)、馬騰宇(斯坦福助理教授、姚班校友,也是許華哲高中時的學長)等人,合作了一個多智慧體場景中的離線強化學習專案。他們提出了一種OMAR方法(Offline Multi-Agent RL with Actor Rectification),在多智慧體的控制任務中獲得了較高的效能。就在前幾天,這篇論文剛被ICML2022接收。

論文地址: http://arxiv.org/pdf/2111.11188.pdf

除了以上兩種方案,許華哲還對基於模型的強化學習(MBRL)特別感興趣。強化學習演算法與之互動的物件並不一定是真正的機器人。如果我們使用一個神經網路去學習一個機器人的動力學模型,然後讓演算法與動力學模型的神經網路互動,我們就可以把跟現實世界互動的過程變成跟神經網路互動的過程。 不必用海量的資料與現實世界互動,但可以達到同樣水平的策略學習效果, 這就是MBRL的優勢所在。

資料複雜度問題的解決,是許華哲過去、現在與未來的主要研究方向之一,也是他實現機器人應用夢想的一個關鍵。他向AI科技評論表示,事實上,三種強化學習路徑中的每一種都很難單獨地完全解決資料複雜度問題,所以,在將來,把它們結合起來或許會帶來比較大的突破。另外,這三種方法也並非僅僅是為了解決資料複雜度的問題,它們也有助於其他問題的解決。比如,MBRL 本質上就帶有泛化性,因為有了一個世界的模型,就可以利用該模型去泛化到不同的任務上。再比如,Offline RL也可以通過學到一個良好的初始值來幫助線上強化學習。此外,如果模擬器做得足夠好,那麼它也有助於做領域隨機化。

「這些方法的努力方向本質上是一樣的,就是希望在真實世界中落地。這是我的理解,可能是有偏見的,但是我比較相信這個方向。」許華哲談道。

強化學習的另一項關鍵挑戰是泛化性。 目前的一個普遍情況是,無論是傳統演算法、還是基於學習的演算法, 經過訓練的機器人往往只能「理解」那些已經見過的東西,面對陌生的物體則會束手無策。 這就要求機器人具有更好的泛化效能。在這個問題上,許華哲有自己的觀察與見解,他也正在試圖去解決這個難題。

在機器人學或者強化學習中,泛化能力是指一個訓練好的決策智慧體可以應對各種未經訓練的情況。泛化包括視覺上的泛化和結構上的泛化, 視覺泛化是指學習可以泛化到未預先見過的環境的策略, 比如說,如果一個機器人可以在你家廚房裡大展廚藝,那麼當你的朋友把它借走,它也應該能夠在朋友家的廚房裡保持它做飯的水準,儘管在它的「眼」裡,廚房的地面、牆壁和櫥櫃的顏色都發生了變化。

在被 IJCAI 2022 接收的一篇論文中,許華哲與來自清華、港大的研究人員合作,通過一種新的資料增強方法TLDA(Task-aware Lipschitz Data Augmentation),改善了資料增強技術在對影象進行微小改動時可能導致的不穩定性,從而提高了視覺強化學習中資料增強技術的泛化能力。

論文地址: http://arxiv.org/pdf/2202.09982.pdf

再說回那個被朋友借走的機器人,如果你家廚房的佈局和朋友家廚房的佈局截然不同,機器人能理解和應對這種變化嗎?一個勺子的擺放朝向都有可能難倒機器人,它也許會「困惑」:上一次我見到的勺子是豎著放的,現在它卻橫躺在這裡,我要怎麼把它拿起來呢?而在實際生活中,除了極端的強迫症,誰也不會本末倒置地為了「遷就」機器人,而每次都保持所有鍋碗瓢盆的擺放位置和朝向不變。

這裡涉及的難題便是 結構泛化。 在許華哲看來,結構上的泛化問題最為棘手:「究竟該如何解決,我還沒有一個完善的想法,但是我們在嘗試兩個事情。」

其一,他們嘗試使用 預訓練(Pre-training) 的方法,直接從一些大的資料集中學習。不過,這種思路並不能直接解決結構泛化的問題,而只是期望在學習過程中能碰巧學到一些有助於解決問題的知識。

許華哲與他的團隊在做的另一件事情,則是 結合3D視覺讓機器人去學習物體的旋轉不變 性。 無論勺子的放置朝向如何變化,機器人都不會被「迷惑」。「這可能是我們在解決結構泛化問題上的一個小小嚐試,不算完全解決這個任務,但是在朝著這個方向前進。」許華哲解釋。

泛化所涉及的另一種情況是 組合性(compositional)泛化。 舉個例子,你的廚房機器人正在學習做兩道不同的菜,第一道菜的菜譜裡有15個步驟,第二道菜有10個步驟,機器人分別學會這兩道菜後,發現每道菜的其中三個步驟是重合的,如:1)將雞蛋打散,放入適量的鹽;2)往鍋裡倒入適量油;3)油熱後倒入雞蛋,翻炒至熟,出鍋。於是,機器人就額外學會了第三道菜的做法:炒雞蛋。類似這種區域性任務具有共通性的情況,就可以做組合性泛化,這也是許華哲目前正在解決的問題之一。

儘管對於目前機器人學中的很多問題,強化學習都還無法提供完美的解決方案,但強化學習在真實世界中的初步亮相,已經顯示出其在未來解決複雜問題的潛力。許華哲對這一點抱有很大的信心: 「只要我們繼續深入做下去,強化學習在其他更難的問題上會產生更多有趣的結果。」

3

回到清華

在斯坦福視覺和學習實驗室做博士後的一年,許華哲明顯感到自己在科研上的目標更加清晰。在這裡,他更多地體會到了大家一起合作、彼此互助的科研氛圍。合作導師吳佳俊在3D視覺方面給他提供了許多幫助,他也在與其他博士後研究員展開多模態機器人方面的合作,組裡還有一些具有優秀的機器人學背景的博士生,他也能從他們那裡學到許多新知識。

許華哲談道,這不僅是科研漸入深處的自然結果,也是因為他很早就已經簽了清華叉院的教職:「在博士後的時候,我就知道以後要回到國內任教,所以我自己更加明確以後想要做什麼,或者說我未來的組想要做什麼。」

圖注:許華哲在(virtual)博士畢業典禮上

2021年博士畢業後,除了清華,許華哲還申請來其他幾所亞洲學校的教職。不過,在面試完清華的三週後,他就收到了offer。沒有太多的猶豫,他就直接選擇了清華,終止了其他正在面試流程中的學校。在被問及為什麼毫不猶豫地選擇回到清華時,許華哲感慨道:

「清華當然是我的第一選擇,因為清華是我的母校,我也是從清華開始接觸到外面更廣闊的世界,看到原來還有這麼多人在做一流的研究,這麼多人在選擇創業,這麼多人把社團活動搞得這麼好。所以我覺得我對清華確實是有特殊的感情的。」

另一方面,對於一個科研工作者來說,清華叉院能給許華哲提供一個理想的科研環境。許華哲在伯克利的幾位師兄,如高陽、 吳翼 、陳建宇,目前都在叉院任教。在跟他們的交流中,許華哲瞭解到叉院的整體科研氛圍非常好,年輕的老師可以擁有比較獨立的科研空間,去做自己真正感興趣的研究,而不被施以太多的限制。制度相對自由和寬鬆的叉院,也支援了許華哲延遲一年入職去斯坦福做博士後的決定。

今年秋天,許華哲將回到母校清華任教。

談及回到叉院以後的科研規劃,許華哲的答案仍然是圍繞著他關於機器人應用的暢想而展開:「我在應用方面的一個整體目標就是希望讓機器人真正為我們做一些複雜的事情,比如說,為我們做四菜一湯、刷盤子、疊衣服,等等。」

為了實現這一目標,許華哲將從演算法、感知和表徵層面繼續他的科研工作。具體而言,演算法方面的挑戰在於,如何把強化學習演算法應用到機器人學上,而其中,基於模型的強化學習和基於視覺的強化學習都是許華哲未來在演算法方面想要努力的方向。在感知層面,許華哲已經在嘗試做視覺、聽覺和觸覺的多模態融合研究。另外,機器人如何表徵世界同樣是一個巨大的挑戰,這也是許華哲會繼續關注的一個問題。

同時,許華哲也已經開始為自己將來的團隊招納賢才。他對學生的期待正如當初博士導師對他的期待一樣:保持好奇心,探索自己真正想要探索的問題。

他希望組建一個豐富的、非同質化的團隊:

「我希望我未來的團隊裡,每個人擅長的東西不同。如果我教的學生在某一個維度上比我強,或者至少有比我強的潛力,我覺得我會很開心,因為我可以從他們身上學到很多東西,而且他們同輩之間也可以互相學習,比如我擅長vision(視覺),你擅長simulator(模擬器),他擅長RL(強化學習),另外一個人可能有一些心理學或物理學的背景等等。」

在學生培養方面,即將成為一名教師的許華哲則抱有這樣的心態:「把他們培養成大腿,然後再抱住他們的大腿」。這是他對教育本質的理解。他開玩笑地說:「如果清華的學生都沒有辦法超過清華老師的上限,人類的發展不就停滯了嗎?」

4

做一個「反捲鬥士」

「我覺得我應該算是個『 反捲鬥士 』吧。」

在機器人學領域懷揣願景、潛心鑽研的許華哲,一直以來都拒絕過一種「機器人式」的生活。比起「有用」,或許他更傾向過「有趣」的人生。「有趣」不是一個標籤,而是他所身體力行的一種生活哲學:做有趣的科研,體驗有趣的生活,保持有趣的愛好,對抗這個內卷加劇的社會。

在科研上,成為一個「寫paper的機器」並非他想要的狀態。許華哲回顧,貫穿他科研之路的,一直都是一種「覺得什麼東西好玩就做了」的心態。博士期間,許華哲就曾做過一個很有意思但後來並未發表出文章的專案:用強化學習教機械手去學習彈鋼琴。發論文不是他的核心考量,最重要的是去做自己想做的科研。至於如何選擇科研方向,如何面對科研中的得與失,許華哲有這樣的感悟:

「我覺得要做自己感興趣的事。一個方向是冷門還是熱門,這都是不可控的。比如你去看人工智慧的發展歷史,當年Hinton做的內容也很冷門,當時對於神經網路這樣一個奇怪的東西,大家都覺得沒意思,都不是很相信。他也是在神經網路真正大火以後才獲得各種榮譽。所以, 不要太受別人的影響。即使到最後,我們沒有獲得巨大的成就,但至少在這個過程中,我們在做自己喜歡的事情,而不是浪費時間做別人喜歡的事情、去跟別人比賽。

面對「青椒」的壓力,許華哲的心態也頗為從容。對他而言,科研本質上只是體驗人生的其中一種方式,如果這條路最終行不通,還有很多其他路可以走:去環遊世界,去中學當老師,教學生搞物理競賽,跟朋友們一起彈彈琴,或者隨便找一個地方開個奶茶店——「我覺得都挺好的」。

在他的世界觀裡,生活的意義在於「快樂地去對這個世界進行輸入和輸出」,輸入可以是「上課學習,看風景,吃東西」,輸出則是類似於「寫論文,教課,做演出」。

科研之外,鋼琴和閱讀或許是他「輸入」最多的事情。許華哲從四歲開始學琴,鋼琴已經陪伴了他二十多年,在伯克利讀博期間,他還修了音樂系的專業課,把樂理、作曲、配器和指揮都學了一遍。現在,即使到了博士後階段,他也在跟著斯坦福音樂系的老師繼續學琴。 他還從顧城的詩歌中找到靈感,嘗試寫了第一首原創歌曲 《攝》 (見許華哲主頁http://hxu.rocks/misc.html)。

「如果不做學術,現在可能在做什麼?」2018年的時候,AI科技評論曾做過一次新年特別推送,採訪了十幾位AI研究青年,當時還在讀博的許華哲對於這個問題的回答是:「現在可能是一個不被理解的蹩腳鋼琴家。」在很多人聽來昏昏欲睡的古典樂,許華哲總是能從中感受到無限的力量。貝多芬是他最喜歡的鋼琴家:「我覺得貝多芬的人生非常硬核,非常彪悍,我最喜歡他的第三首交響樂,是他最初寫給拿破崙的一首交響樂,叫《英雄》,我覺得非常激勵我。」

除了嚴肅音樂,許華哲也喜歡閱讀有趣的文字。對他來說,閱讀是一個豐盈內心的途徑和學習大家思想的媒介。卡爾維諾、黑塞、劉慈欣、阿西莫夫......那些科學幻想與哲學思辨都是他進入和體驗「他世界」的一種門戶。

不久前,許華哲在微信朋友圈裡發了一則招生宣傳,並附上這樣一段話:

「10年過去,曾經的二字班小朋友將作為二字班的老師回到母校任教,十分感謝所有在我讀書,科研期間給予我支援和幫助的親人、師長、好友。希望可以在清華,將我之所學、所思,以無限地熱情,用於啟發更多的同學去學習知識,探索真理。我也會時刻反思自己,學問是否足夠,德行是否可為人師表,希望自己也可以在清華的土壤裡行健不息,繼續成長。」

從清華學子到清華教師,在未來的日子裡,許華哲將繼續他對這個世界的輸入與輸出。

以下是AI科技評論與許華哲的部分對話節選:

AI科技評論:您怎麼看待科幻作家阿西莫夫提出的“機器人三定律”?

許華哲: 首先我認為這個“三定律”說得很好,很有意思,我自己也很喜歡阿西莫夫的小說,它還是很有價值的。阿西莫夫的粉絲應該都知道,除了這個定律,後面還有很多人提出了其他定律。比如阿西莫夫自己就還補充“機器人第零定律”:機器人必須保護人類的整體利益不受傷害,其他三條定律都是在這一前提下才能成立。還有人提出“繁殖定律”:機器人不得參與機器人的設計和製造,除非新的機器人的行動服從機器人學定律。

但現在的人工智慧還完全沒有達到要認真考慮這些定律的水平,好像還為時尚早,我覺得,到了該考慮它們的時候再去考慮也來得及。

AI科技評論:之前LeCun談到,自監督學習跟世界模型相結合可以實現像人類一樣學習推理的人工智慧系統。也有一些網友認為自監督學習其實就是強化學習。您是怎麼看待這種觀點的?自監督學習與世界模型未來會用到您的研究當中嗎?

許華哲: 首先,我認為自監督學習似乎並非就是強化學習。自監督學習還是包含了很多其他任務的,比如影片預測、圖片補全這些都是自監督學習,但它們並不是強化學習。我覺得在做強化學習的過程中,我們是可以用到自監督學習來學習世界模型或者世界運動規律,Model Based RL(基於模型的強化學習)裡的 model其實就可以用自監督學習來完成,所以我覺得二者確實有可結合的點。但是認為自監督學習就是強化學習,可能只是稍微懂一點概念,但並非行家之見。

AI科技評論:在結構泛化問題上,您覺得以後會不會去適配機器人的需求來配套智慧家居?畢竟大部分人可能對傢俱的設計感要求不高,所以是否可以去適應機器人的能力來定製一套傢俱?這會是解決結構泛化問題的一個方式嗎?

許華哲: 我的預測是,在特定場景下可能會,但是在通用的場景比如家居場景下,我認為不會。我其實也做過一點自動駕駛,據我觀察,自動駕駛剛興起的時候,大家有兩種思路,一種是做演算法、做視覺,然後讓車子上路。另一種思路則是說,如果我做不好演算法,那我能不能在道路上面做文章,我能不能搞一種自動駕駛專用車道,或者讓紅綠燈跟汽車去做通訊等等。但是現在五六年過去了,看起來還是前一種從演算法著手的思路更佔主流。

所以回到我們剛剛說的機器人場景,我覺得在特定場景比如實驗室裡,我們可以把場地建造得,對機器人很友好,來讓機器人更好地發揮其作用。但是在家居場景中,如果你要讓全中國或全世界人都要為機器人量身打造一套家居設施,這是很不現實的,第一我覺得它的成本非常高,大家的接受度也未必會很高;第二,我覺得這件事會牽涉巨大的利益,可能誰也不能當這個“頭頭兒”,如果有某個公司表示要負責搞定這個事情,那不就相當於全世界人的房子裝修都由這個公司說了算了嗎?

AI科技評論:你們現在是怎麼做的多模態?視覺和聽覺、觸覺是不是要基於不同的技術?

許華哲: 在觸覺方面,我們目前使用的是MIT那邊開發的gelsight sensor,它其實是相當於把一個觸覺的訊號(一個人工手指摸到某個東西)轉換成一個視覺的訊號。所以其實在觸覺方面,有很多跟視覺所共享的技術佔領,可以把之前視覺上面的一些網路結構用在對觸覺的處理上。當然,gelsight 遠遠不是最好的觸覺感測器,因為比如說,我們的面板除了能摸到物體上面的凸起,我們還能通過感受熱的流動來感覺到它的材質,以及我們還會聽到接觸物體時產生的聲音等等,這些都會給我們帶來更接近人類的觸覺感知。我覺得未來的感測器要想變得更好或者更接近的人類,甚至超越人類,肯定就需要更新的演算法來解決其他模態。但目前來說,比如gelsight 這種技術,可能更多的還是仿照視覺的處理流程去做觸覺。

AI科技評論:要實現通用的機器人,是否要先實現通用的人工智慧?

許華哲: 我覺得未必是這樣的一種先後關係。我們看科學史就會發現,好像並不存在把一種理論做得足夠完善後再去實現它的各種應用這種情況。更多的是你先有一個應用方面的目標,然後你再去思考你的理論有哪裡還可以再改進,從而使其幫助你達成在應用上的目標。比如,人們曾在戰爭期間搞出一些通訊方面的成果,後來手機出現了。我更相信需求驅動的方式,這就是說,我們先產生機器人幫我們做事情的需要,然後會有很多聰明的頭腦來做研究,人工智慧的發展線路可能就會因此而變得明確,即我們究竟要怎麼樣才能建立一種有用的人工智慧,這是我的一些拙見。

作者注:AI人物故事與研究報道,請新增微信(302703941)。

推薦閱讀

「其他文章」