將有色液體影象轉換成透明液體,CMU教機器人準確掌控向杯中倒多少水

語言: CN / TW / HK

機器之心報道

編輯:杜偉

藉助不同風格之間的影象轉換,CMU 的研究者教會了機器人理解透明液體。

如果機器人可以倒液體,則可以幫助我們自動完成烹飪、將藥品倒入藥瓶或給植物澆水等任務。但是,透明液體在影象中很難被感知出來,完全透明的液體可以提供的唯一視覺訊號是光線穿過液體的折射。此外,獲得液體的深度測量同樣不容易,因為液體會折射所投射的紅外光。

以往的工作已經探索了機器人在各種環境下倒水,但都需要在環境或資料收集方法上做出重大妥協。透明液體細分的方法需要在訓練期間加熱液體,以在熱成像儀觀察下獲得真值標籤。

然而,為訓練加熱液體是一個單調乏味的過程,對可以輕鬆收集多少訓練資料有限制。其他方法需要從多視角、背景、重量測量或液體運動等方面觀察液體,這些施加在環境上的要求限制了這些方法的適用性。

近期,在 CMU 和聖母大學的一篇論文中,研究者提出了一種在透明容器中感知透明液體(如水)的方法。與以往方法相比,本研究提出的方法減輕了對操作域的限制。具體地,他們在單個影象上進行操作,不需要液體運動或多幀,也不需要在訓練期間進行手動註釋或加熱液體。研究者使用一個生成模型來學習將有色液體的影象轉換為透明液體的合成影象,這種做法可以用來訓練透明的液體細分模型。

論文一作 Gautham Narasimhan 現為 CMU 機器人研究所的助理研究員,2020 年在 CMU 拿到了碩士學位。目前,他致力於研究用於機器人倒水任務的強化學習模型。該研究由 LG Electronics 和美國國家科學基金會提供資助,並於 5 月份發表在 IEEE 國際機器人和自動化會議上。該論文已被機器人領域國際頂會 ICRA 2022 接收。

論文地址:https://arxiv.org/pdf/2203.01538.pdf

專案主頁:https://sites.google.com/view/transparentliquidpouring

研究中非常重要的是,研究者在透明和有色液體的未配對影象資料集上訓練轉換模型,也就是說,他們的方法不需要有色和透明影象之間的標籤對應來學習有色到透明轉換模型。這樣可以實現自動和高效的資料集收集。由於很容易獲得有色液體的細分標籤,研究者可以直接使用一張有色液體影象的細分標籤作為同一張影象的真值細分標籤,只要它已經轉換成了透明液體。

為了證明這種資料集轉換方法在現實世界系統中的實用性,研究者構建了一個機器人倒水系統,它利用一個透明液體細分模型來完成倒水任務。在一個由機器人工作區中轉換模型生成的透明液體合成影象的小型資料集上,他們對該細分模型進行訓練。最後,研究者還進行了幾個資料集擴增實驗,以證明他們的方法有潛力訓練可以泛化至多樣化場景的透明液體細分模型。

研究者展示了機器人倒水的效果,比如倒了玻璃杯 75% 高度的水:

再比如倒了玻璃杯 50% 高度的水:

方法和實驗概覽

影象轉換演算法使用影象集合來訓練 AI 將影象從一種風格轉換成另一種風格,比如將一張照片轉換成莫奈風格的繪畫或者使一匹馬的影象看起來像斑馬。在本文中,研究者使用了一種對比學習方法來進行未配對的影象到影象轉換(簡稱為 CUT)。

如下為有色液體影象轉換成透明液體影象的詳細流程圖。他們利用論文 Section III-A 中描述的損失來訓練一個生成器 G,它將有色液體 D_color 的影象轉換為 D_transpatent 影象。

Narasimhan 的導師、CMU 機器人研究所助理教授 David Held 表示,在學習的訓練階段,我們需要某種方式來告訴演算法哪些是正確和錯誤的答案。然而,標記資料是一個耗時的過程,尤其是在教機器人倒水時,人類可能需要在影象中標記出單個水滴。

David Held 還表示,正如我們可以訓練一個將馬的影象看起來像斑馬的模型,我們同樣能夠訓練一個將有色液體影象轉換為透明液體影象的模型。這樣,研究者可以使用該模型使機器人理解透明液體。下圖為通過研究者訓練的模型,實現了有色液體向透明液體的影象轉換效果。圖上為真實世界有色液體的影象,下圖為生成的透明液體的影象。

透明液體細分是非常重要的一步,如下圖所示,研究者使用生成器 G 將 D_color 的影象轉換為透明影象,並通過背景減除從有色液體中生成偽真值的細分掩膜 M_i。最後,研究者使用標準的二進位制交叉熵損失在這個合成數據集上訓練一個透明液體細分模型 S。

機器人很難看到像水這樣的透明液體,因為透明液體反射、折射和吸收光線的方式因環境而異。為了教顯示器通過一杯水看到不同的背景,研究者在裝滿水的透明玻璃杯後播放 YouTube 影片。通過這種方式訓練系統,使得機器人可以在現實世界的不同背景下倒水,無論它處於何處。

下圖為針對新的(未見過)容器和背景的細分泛化。

Narasimhan 說,即使對人類來說,有時也很難準確地確定水和空氣的邊界。使用他們的方法,機器人能夠將水倒進玻璃杯中的一定高度,如前文動圖所示。

他還表示,未來依然有擴充套件這種方法的空間,新增不同的光線條件,讓機器人挑戰將水從一個容器倒進另一個,或者不只估計水的高度還有體積。