給我1張圖,生成30秒視訊!|DeepMind新作
新智元報道
編輯:Joey 桃子
【新智元導讀】近日,DeepMind提出了一種基於概率幀預測的影象建模和視覺任務的通用框架——Transframer。
AI又進階了?
而且是一張圖生成連貫30秒視訊的那種。
emm....這質量是不是有點太糊了
要知道這只是從單個影象(第一幀)生成的,而且沒有任何顯示的幾何資訊。
這是DeepMind最近提出的一種基於概率幀預測的影象建模和視覺任務的通用框架——Transframer。
簡單講,就是用Transframer來預測任意幀的概率。
這些幀可以以一個或者多個帶標註的上下文幀為條件,既可以是先前的視訊幀、時間標記或者攝像機標記的檢視場景。
Transframer架構
先來看看這個神奇的Transframer的架構是怎麼運作的。
論文地址就貼在下面了,感興趣的童鞋可以看看~
http://arxiv.org/abs/2203.09494
為了估計目標影象上的預測分佈,我們需要一個能夠生產多樣化、高質量輸出的表達生成模型。
儘管DC Transformer在單個影象域上的結果可以滿足需求,但並非以我們需要的多影象文字集 {(In,an)}n 為條件。
因此,我們對DC Transformer進行了擴充套件,以啟用影象和註釋條件預測。
我們替換了DC Transformer 的Vision-Transformer風格的編碼器,該編碼器使用多幀 U-Net 架構對單個DCT影象進行操作,用於處理一組帶註釋的幀以及部分隱藏的目標DCT影象。
下面看看Transframer架構是如何工作的。
(a)Transframer將DCT影象(a1和a2)以及部分隱藏的目標DCT影象(aT)和附加註釋作為輸入,由多幀U-Net編碼器處理。
接下來,U-Net輸出通過交叉注意力傳遞給DC-Transformer解碼器,該解碼器則自動迴歸生成與目標影象的隱藏部分對應的DCT Token序列(綠色字母)。
(b)多幀U-Net block由NF-Net卷積塊、多幀自注意力塊組成,它們在輸入幀之間交換資訊和 Transformer式的殘差MLP。
再來看看處理影象輸入的Multi-Frame U-Net。
U-Net的輸入是由N個DCT幀和部分隱藏目標DCT幀組成的序列,註釋資訊以與每個輸入幀相關聯的向量的形式提供。
U-Net的核心元件是一個計算塊,它首先將一個共享的NF-ResNet 卷積塊應用於每個輸入幀,然後應用一個Transformer樣式的自我注意塊來聚合跨幀的資訊。(圖2 b)
NF-ResNet塊由分組卷積和擠壓和激發層組成,旨在提高TPU的效能。
下面,圖(a)比較了RoboNet (128x128) 和KITTI視訊的絕對和殘差DCT表徵的稀疏性。
由於RoboNet由只有少數運動元素的靜態視訊組成,因此殘差幀表徵的稀疏性顯著增加。
而KITTI視訊通常具有移動攝像頭,導致連續幀中幾乎所有地方都存在差異。
但在這種情況下,稀疏性小帶來的好處也隨之弱化。
多視覺任務強者
通過一系列資料集和任務的測試,結果顯示Transframer可以應用在多個廣泛任務上。
其中就包括視訊建模、新檢視合成、語義分割、物件識別、深度估計、光流預測等等。
視訊建模
通過Transframer在給定一系列輸入視訊幀的情況下預測下一幀。
研究人員分別在KITTI和RoboNet兩個資料集上,訓練了Transframer在視訊生成上的效能如何。
對於KITTI,給定5個上下文幀和25取樣幀,結果顯示,Transframer模型在所有指標上的效能都有所提高,其中LPIPS和FVD的改進是最顯而易見的。
在RoboNet上,研究人員給定2個上下文幀和10個取樣幀,分別以64x64 和 128x128 的解析度進行訓練,最終也取得了非常好的結果。
檢視合成
在檢視合成方面,研究者通過提供相機檢視作為表 1(第 3 行)中描述的上下文和目標註釋,以及統一取樣多個上下文檢視,直到指定的最大值。
通過提供1-2個上下文檢視,在ShapeNet 基準上評估模型Transframer,明顯優於PixelNeRF和SRN。
此外在資料集Objectron進行評估後,可以看出當給定單個輸入檢視時,模型會產生連貫的輸出,但會遺漏一些特徵,比如交叉的椅子腿。
當給出1個上下文檢視,以128×128解析度合成的檢視如下:
當再給出2個上下文檢視,以128×128解析度合成的檢視如下:
多視覺任務
不同的計算機視覺任務通常使用複雜的架構和損失函式來處理。
這裡,研究人員在8個不同的任務和資料集上使用相同的損失函式聯合訓練了Transframer模型。
這8個任務分別是:單個影象的光流預測、物件分類、檢測和分割、語義分割(在2個數據集上)、未來幀預測和深度估計。
結果顯示,Transframer學會在完全不同的任務中生成不同的樣本,在某些任務中,比如 Cityscapes,該模型產生了質量上好的輸出。
但是,在未來幀預測和邊界框檢測等任務上的模型輸出質量參差不齊,這表明在此設定中建模更具挑戰性。
參考資料:
http://sites.google.com/view/transframer
- 百度騰訊阿里真的是高科技企業嗎?【轉載】
- 三未信安闖關科創板:主營產品市佔率僅0.41%,國產化步伐待加速
- T3出行入駐微信,網約車行業運力爭奪戰升溫
- 社交泛娛樂出海有三難,開發者如何闖關?
- TopHolderX微博數字藏品頭像全面開放!國內社交化數字
- 網約車市場再起波瀾:騰訊、華為相繼入局 聚合模式加速攻城略地
- 首發三週後,蘋果就在印度啟動生產iPhone 14
- 柔宇科技及其法定代表人劉自鴻被限制消費
- T3出行進駐微信交通出行板塊,在南京、成都等全國96城上線
- Meta 展示新研究,僅使用 Quest 頭顯就能實現全身跟
- 健世科技-B(9877.HK)正在招股,結構性心臟病介入治療領域的新星
- 核電,大時代的藏寶圖
- 信通院報告披露5G訊息發展的四大硬傷
- 有線電視會像恐龍一樣滅亡嗎?觀點:不會很快消失
- 美團外賣“保衛戰”,張一鳴深入王興腹地
- 中國電氣裝備:以“力”破局,邁出堅實第一步
- 呷哺佈局燒烤賽道 創始人賀光啟詳解跨界戰略
- 那一夜,周鴻禕夢見百萬雄兵
- SEMI:2023年半導體材料市場規模將破700億美元
- 中國移動政企科創專題:OneOS帶來工業網際網路“鯰魚效應”