Nature子刊 | 像嬰兒一樣學習,DeepMind新模型28小時學會物理世界規則
現在,DeepMind又創建了一個可以學習簡單物理規則的新模型。
發育心理學家測試分析了嬰兒如何通過目光來跟隨物體的運動。例如,當播放視頻中有一個球突然消失時,孩子們會表現出驚訝。
DeepMind的計算機科學家 Luis Piloto 及其同事希望為人工智能(AI) 開發類似的測試。該團隊使用立方體和球等簡單物體的動畫視頻訓練了一個神經網絡,該模型通過從大量數據中發現模式來學習。研究論文於 7 月 11 日發表在《Nature Human Behaviour》上。
-
論文地址:https://www.nature.com/articles/s41562-022-01394-8
-
數據集地址:https://github.com/deepmind/physical_concepts
該模型通過自動編碼和跟蹤對象進行物理學習,因此命名為 PLATO (Physics Learning through Auto-encoding and Tracking Objects)。PLATO 接收來自視頻的原始圖像和突出顯示場景中每個對象目標的圖像版本。PLATO 旨在開發對象物理特性的內部表徵,例如它們的位置和速度。
該系統接受了大約 30 個小時的視頻訓練,這些視頻展示了簡單的運動機制(例如一個球從斜坡上滾下來),並開發了預測這些對象在不同情況下行為的能力。特別地,PLATO 學習了連續性和穩固性,保證目標的軌跡是不間斷的,物體形狀是持久的。隨着視頻的播放,模型的預測會變得更加準確。
當播放帶有「不可能」事件的視頻時,例如一個物體突然消失,PLATO 可以度量視頻和它自己的預測之間的差異,從而提供一種「驚訝」的衡量標準。
Piloto 説:「PLATO 並非設計為嬰兒行為模型,但它可以測試關於人類嬰兒如何學習的假設。我們希望認知科學家最終可以使用它來模擬嬰兒的行為。」
英屬哥倫比亞大學的計算機科學家 Jeff Clune 表示,「將 AI 與人類嬰兒的學習方式進行比較是一個重要的研究方向。PLATO 的研究者手工設計了許多賦予人工智能模型優勢的先驗知識。」Clune 等研究人員正試圖讓程序開發自己的算法來理解物理世界。
運用發展心理學的知識
為了在 AI 系統中追求更豐富的物理直覺,DeepMind的研究團隊從發展心理學中汲取靈感。研究團隊構建了一個深度學習系統,該系統整合了發展心理學的核心見解,即物理學是在離散對象及其相互作用的層面上理解的。
直覺物理學的核心依賴於一組離散的概念(例如,對象的持久性、穩固性、連續性等),可以區分、操作和單獨探測。傳統的 AI 學習直觀物理的標準方法通過視頻或狀態預測指標、二元結果預測、問答性能或強化學習任務來學習物理世界。這些方法似乎需要理解直覺物理學的某些方面,但並沒有明確地操作或戰略性地探索一組明確的概念。
另一方面,發展心理學認為一個物理概念對應於一組未來如何展開的期望。例如人們期望物體不會神奇地從一個地方突然傳送到另一個地方,而是通過時間和空間追蹤連續的路徑,這就有了連續性的概念。因此,有一種測量特定物理概念知識的方法:違反期望 (VoE) 範式。
使用 VoE 範式探索特定概念時,研究人員向嬰兒展示視覺上相似的陣列(稱為探測(probe)),這些陣列與物理概念一致(物理上可能)或不一致(物理上不可能)。在這個範式中,「驚訝」是通過凝視持續時間來衡量的。
方法介紹
首先,DeepMind提出了一個非常豐富的視頻語料庫—— Physical Concepts 數據集 。該數據集包含 VoE 探測視頻,針對五個重要的物理概念,這些概念在發展心理學中被視為核心要素,包括連續性、目標持久性和穩固性。第四種是不可變性,用於捕捉某些目標屬性 (例如形狀) 不會改變的概念;第五個概念是方向慣性,涉及到運動物體在與慣性原理一致的方向上發生變化的期望。
最重要的是 Physical Concepts 數據集還包括一個單獨的視頻語料庫作為訓練數據。這些視頻展示了各種程序生成的物理事件。
PLATO 模型架構
Deepmind 旨在建立一個能夠學習直觀物理學的模型,並剖析模型實現這種能力的原因。PLATO 模型中實例化了 AI 領域一些先進的系統。
首先是目標個性化過程。目標個性化過程將視覺的連續感知輸入切割成一組離散的實體,其中每個實體都有一組對應的屬性。在 PLATO 中,每個分段的視頻幀通過感知模塊分解為一組目標代碼(圖 3a-c),從而實現從視覺輸入到個體目標的映射。PLATO 沒有學習分割場景,但給定一個分割目標,其學習一個壓縮表示。
其次,目標跟蹤(或目標索引)為每個目標分配一個索引,從而實現跨時間目標感知和動態屬性計算之間的對應關係(圖 3b,c)。在 PLATO 中,目標代碼在目標緩衝區中的幀上累積和跟蹤(圖 3d)。
最後一個組件是這些被跟蹤目標的關係處理,這一過程受到發展心理學中提出的「物理推理系統」的啟發,該系統可以動態地處理物體的表徵,產生新的表徵,這些表徵會受到物體與其他物體之間關係和互動的影響。
PLATO 學習目標內存和目標感知歷史之間的交互作用(圖 3d),以生成針對下一個目標的預測視頻幀並更新基於目標的內存。
實驗結果
在測試時,當使用五種不同的隨機種子進行訓練時,PLATO 在所有五個探測類別中都顯示出強大的 VoE 效果。
Physical Concepts 數據集中的訓練語料庫共包含 300000 個視頻。用保守計算方法,大約需要 52 天的持續視覺體驗。從 AI 和開發的角度來看,這存在一個問題,即在測試中產生 VoE 效果實際上需要多少訓練數據。為了評估這一點,Deepmind 在大小逐漸減小的數據集上訓練了三個 PLATO 動態預測器的隨機種子(圖 6),計算了所有五個探測類別的 VoE 效應的總平均值。
在僅對 50000 個示例進行訓練後,研究結果表明,在使用少至 50000 個示例(相當於 28 小時的視覺體驗)進行訓練後,Deepmind 的模型中出現了穩健的 VoE 效果。
泛化測試:Deepmind 採用 ADEPT 數據集,該數據集旨在探索直觀的物理知識。如圖 7 所示,PLATO 對所有三個探測類別都顯示出清晰的 VoE 效果。
更多內容,請查看原論文。
參考內容:
https://www.nature.com/articles/d41586-022-01921-7
https://www.deepmind.com/publications/learning-intuitive-physics-through-objects
- 解密數字時代 AI 加持之道,網易智企聯合機器之心發佈 AI 應用實踐白皮書
- INDEMIND:高需求和低滲透之間,服務機器人為何規模化落地難?
- AI,能為1.2億聽障老人做點什麼
- 探索計算機視覺前沿,螞蟻技術研究院4篇論文入選NeurIPS
- 蘑菇車聯推出L4巴士及「汽車大腦」,由公共服務切入商業運營
- ECCV 2022 | 無需下游訓練,Tip-Adapter大幅提升CLIP圖像分類準確率
- “天池杯”全國中小學科技少年AI領航計劃啟動
- 存儲和操作n維數據的難題,谷歌用一個開源軟件庫解決了
- 炸響平地驚「雷」,自動駕駛公司能否接下「雷神」之錘
- OpenDILab幕後的「孤勇者」:AI研究員、電競冠軍和他們的開源夢
- 寒武紀行歌獲博世創業投資公司投資,攜手助力自動駕駛產業發展
- 華為雲位居中國DevOps市場領導者,份額、戰略雙第一!
- 還只會卷論文嗎?70頁報告解密頂級大廠如何玩轉AI技術(附完整下載鏈接)
- 現在都2202年了,用CPU做AI推理訓練到底能不能行?
- 中山大學通過深度學習分子模擬加速有理PROTAC設計,助力藥物研發
- 覆蓋100餘篇論文,這篇綜述系統回顧了CV中的擴散模型
- PillPack兩位創始人將離職,亞馬遜醫療健康業務佈局“屢敗屢戰”
- 7199元起,英偉達RTX 40系顯卡終於來了:基礎性能翻倍,光追翻4倍
- 截屏帶島、玩王者榮耀看不見金幣,iPhone 14 Pro靈動島翻車了
- 數據安全公司Fortanix完成C輪融資,是時候採用一種新的企業數據安全方法了!