機器人落地「祕訣」:持續學習、知識遷移和自主參與

語言: CN / TW / HK

亞馬遜機器人實驗室的三位頂級科學家,在 ICRA 會議上探討了機器人的現有挑戰。

編譯 | 劉冰一

編輯 | 陳彩嫻

2022年5月23日,一年一度的機器人技術領域的頂級國際會議 ICRA 2022 (IEEE International Conference on Robotics and Automation) 在美國費城如期舉行。

這是ICRA舉辦的第39個年頭。ICRA 是 IEEE 機器人和自動化學會的旗艦會議,也是機器人研究者展示和討論他們工作的主要國際論壇。

在今年的ICRA上,亞馬遜的三位首席機器人專家,Sidd Srinivasa、 Tye Brady 和 Philipp Michel 簡單討論了在現實世界中構建人機互動的機器人系統所面臨的挑戰。

圖注:從左到右為亞馬遜機器人人工智慧主管 Sidd Srinivasa,亞馬遜機器人公司(全球)首席技術專家 Tye Brady,以及亞馬遜 Scout 應用科學高階經理 Philipp Michel

Sidd Srinivasa是全球知名的機器人專家,IEEE Fellow,現任華盛頓大學波音特聘教授,同時是 Amazon 機器人人工智慧專案的負責人,負責管理協助 Amazon 物流中心員工的自主機器人的演算法,研究可以收拾和包裝產品的機器人和可自主搬卸和運輸貨物的推車式機器人。

Tye Brady是亞馬遜機器人公司(全球)首席技術專家,MIT航空航天工程碩士背景。而Philipp Michel與Sidd Srinivasa同為CMU機器人研究所的博士校友,是亞馬遜Scout機器人專案的高階經理。

在探討解決機器人落地挑戰的問題上,他們提出了自己的看法。AI科技評論作了不改原意的整理,如下:

Q: 你們在機器人領域的研究分別 解決不同的問題,這些問題之間有什麼相同點

Sidd Srinivasa :機器人研究的一個重要難點是:我們生活在一個開放的世界中。我們甚至不知道即將面對的「輸入」是什麼。在我們的營運中心,我需要操控超過2000萬件物品,而且這些物品還以每天成千上百件的數量在增加。大部分時候,我們的機器人並不清楚它們所拾起的物品是什麼,但它們需要小心地拾起物品,並在不損壞物品的前提下將物品進行快速包裝。

Philipp Michel :對於Scout來說,難點是在人行道上遇到的物體,以及運送的環境。我們在美國四個州都部署了私人送貨裝置。天氣狀況、光照條件……我們從一開始就明確要處理大量的變數,使機器人能夠適應複雜的環境。

Tye Brady: 在開發執行機器人的過程中,我們有一個顯著的優勢, 就是在半結構化的環境中展開運營。 我們可以自行制定機器人的交通規則,瞭解環境真的有助於我們的科學家和工程師深入理解我們要移動、操作、分類和識別的物體,完成訂單。也就是說,我們可以在真實世界中實現對技術的追求。

Philipp Michel :還有另一個共同點,就是我們 非常依賴從資料中學習,以解決問題。 Scout 會在執行任務的過程中接收真實世界的資料,然後不斷迭代開發用於感知、定位和導航的機器學習解決方案。

Sidd Srinivasa: 我完全同意(從資料中學習解決問題)。我認為機器學習和自適應控制是超線性規模拓展的關鍵。如果我們部署了成千上萬的機器人,我們不可能有成千上萬的科學家和工程師來研究它們,我們需要依賴真實世界的資料,實現超線性地增長。

另外,我認為開放的世界會迫使我們思考怎樣「持續學習」。我們的機器學習模型往往是基於一些輸入資料分佈來訓練的,但因為這是一個開放的世界,會遇到「協變數轉移」(covariate shift)的問題,也就是看到的資料與分佈不匹配,這會導致機器學習模型常常沒來由地過於自信。

因此,我們所做的大量工作就是建立一個「watchdogs」(看門狗,一種監督裝置),用來識別輸入資料分佈何時偏離了它所受訓的分佈。然後,我們再進行「重要性抽樣」(importance sampling),這樣我們就可以挑選出已經改變的資料,重新訓練機器學習模型。

Philipp Michel: 這也是為什麼我們想要在不同的地方訓練機器人的原因之一,這樣我們就可以儘早知道機器人可能遇到的現實資料,反過來迫使我們開發能夠解決新資料的方案。

Sidd Srinivasa: 這的確是個好主意。 擁有多機器人的優點之一就是系統能夠識別出變化的內容,重新進行訓練,然後將這些知識分享給其他機器人。

想到一個分揀機器人的故事:在世界的某個角落,一個機器人遇到一個新的包裝型別。一開始,它很困擾,因為它從來沒有見過這種情況,也無法識別出來。後來出現了一個新的解決方案:這隻機器人可以將新的包裝型別傳輸給世界上所有機器人。如此一來,當這種新包裝型別出現在其他地方,其餘機器人就知曉如何處理了。相當於有了一個「備份」,新的資料出現在一個點,其他點都會知道,因為系統已經能夠重新自我訓練、並分享資訊了。

Philipp Michel :我們的機器人也在做類似的事情。如果我們的機器人遇到之前沒有遇到過的新障礙,我們會嘗試調整模型來識別與處理這些障礙,隨後將新的模型部署到所有的機器人上。

讓我夜不能寐的一件事情是,我們的機器人會在人行道上遇到新的物體,但這些物體在接下來的三年都不會再遇到,例如:人們在萬聖節上用來裝飾草坪的滴水獸,或者人們在野餐的桌子上放一把傘、使桌子看起來不像「野餐桌」。對於這種情況,所有的機器學習演算法都無法識別出這是一張野餐桌。

因此,我們的部分研究還是關於如何平衡無需糾結的普通事物與具體類別的事物。如果這是一個敞開的井蓋口,那麼機器人一定要善於識別,不然它會掉下去。但如果它只是一個隨機的盒子,我們可能就不需要知道這個盒子的層次結構,只需要知道這是我們要繞過去的物體即可。

Sidd Srinivasa: 另一個挑戰是,當你改變你的模型時,可能會出現意想不到的後果。改變後的模型也許不會影響機器人的感知,但可能會改變機器人「剎車」方式,導致兩個月後滾珠軸承磨損。在端到端的系統中,未來許多有趣的研究都是關於“理解系統部分更改對整個系統性能的影響”。

Philipp Michel :我們花了很多時間思考是否應該劃分機器人堆疊的不同部分。在他們之間做整合能夠帶來很多好處,但也是有限的。一個極端情況是攝像頭到電機到扭矩的學習,這在任何現實世界的機器人應用中都是非常具有挑戰性的。還有就是傳統的機器人堆疊,它被很好地分成了定位、感知、規劃和控制等部分。

我們還花了很多時間思考堆疊應該如何隨著時間的推移而發展,把這些部分更緊密地結合在一起時效能有什麼提升?同時,我們希望有一個系統儘可能地保持可解釋性。 我們試圖最大化利用整個堆疊的學習元件整合,同時保留可解釋性和安全功能的數量。

Sidd Srinivasa :這個觀點很贊,我完全同意 Philipp 的觀點, 用一個模型來統治所有模型未必是正確的。 但通常,我們最終建立的機器學習模型共享一個主幹,有多個應用的頭。一個物體是什麼,分割一個物體意味著什麼?可能類似於挑選、堆放或者包裝,但是每一個都需要專門的頭,搭載在專門任務的主幹上。

Philipp Michel :我們考慮的一些因素是電池、行程、溫度、空間和計算限制。因此,我們需要高效使用我們的模型、優化模型、並嘗試儘可能多地利用共享主幹,就像 Sidd 提到的,不同的頭用於不同的任務。

圖注:Amazon Scout 是一個自動送貨機器人,它可以在公共人行道上以步行的速度移動,目前正在美國四個州進行實地測試。

Q:當我問及你們專案之間的共性時,我想到的一件事是你們的機器人都是和人類在同樣的環境中工作。 為什麼這 會使問題複雜化呢?

Sidd Srinivasa :機器人正在走近人類生活,我們必須尊重發生在人類世界中的所有複雜的互動。除了走路、開車、執行任務外,還有複雜的社交。對機器人來說重要的是, 首先,要有意識;其次,要參與其中。

這真的很難,當你在開車的時候,有時很難判斷其他人在想什麼,也很 難根據他們的想法來決定如何行動。僅僅是推理問題就很難,然後閉環就更難了。

如果機器人正在下棋或與人對弈,那麼預測他們將要做什麼就容易多了,因為規則已經很好地制定了。如果你假設你的對手是最優的,那麼你會做得很好,即使他們是次優的。這在某些雙人遊戲中是種保證。

但實際情況並非如此,我們在玩這種確保雙贏的合作博弈發現,博弈時其實很難準確預測,即便合作者也是好意。

Philipp Michel :而且人類世界的行為變化很大。有的寵物完全無視機器人,有的寵物會走向機器人。行人也是如此,有些人對機器人視而不見,而有些人則徑直走近它。特別是孩子,他們的好奇心超強,互動非常密切,我們需要能夠安全地處理所有相處場景,這些可變性讓人躍躍欲試。

參考連結:

http://www.amazon.science/blog/icra-2022-robotics-at-amazon

http://goodrobot.ai/bio/

http://philmichel.com/cv

http://www.cs.cmu.edu/~pmichel/

雷峰網 (公眾號:雷峰網) 雷峰網

雷峰網版權文章,未經授權禁止轉載。詳情見 轉載須知

「其他文章」