一塊GPU,每秒20個模型!英偉達新玩具用GET3D造元宇宙
新智元報道
新智元報道
編輯:拉燕 桃子
【新智元導讀】 近日,英偉達釋出了最新的GET3D模型,能快速生成虛擬世界的物件,而且只需要一塊GPU每秒就能產出大約20個模型。
Abracadabra!
在2D生成3D模型上,英偉達亮出了自稱「世界級」研究:GET3D。
通過2D影象訓練後,該模型可生成具有高保真紋理和複雜幾何細節的3D形狀。
究竟有多厲害?
形狀、紋理、材質自定義
GET3D之所以得名,是因為它能夠生成顯式紋理3D網格(Generate Explicit Textured 3D meshes )。
論文地址:https://arxiv.org/pdf/2209.11163.pdf
也就是說,它建立的形狀是三角形網格的形式,就像紙模型一樣,上面覆蓋著紋理材質。
關鍵是,這個模型可以生成多種多樣,且高質量的模型。
比如,椅子腿上的各種輪子;汽車的車輪,燈和車窗;動物的耳朵、角;摩托車的後視鏡,車輪胎上的紋理;高跟鞋,人類衣服...
街道兩旁的獨特建築,不同的車輛呼嘯而過,還有不同的人群穿梭而過...
若想通過手動建模做出同樣的3D虛擬世界非常耗時。
儘管先前的3D生成AI模型雖然比手動建模更快,但它們在生成更多豐富細節模型的能力還是欠缺。
即便是,最新的逆向渲染方法也只能基於從各個角度拍攝的2D影象生成3D物件,開發人員一次只能構建一個3D物體。
GET3D可就不一樣了。
開發者可以輕鬆地將生成模型匯入到遊戲引擎、3D建模器和電影渲染器中,對它們進行編輯。
當建立者將GET3D生成的模型匯出到圖形應用程式,他們就可以在模型所在的場景中移動或旋轉時應用逼真的照明效果。
如圖所示:
另外,GET3D還可以做到文字引導形狀生成。
通過使用英偉達的另一個AI工具StyleGAN-NADA,開發人員可以使用文字提示為影象新增特定的風格。
比如,可以將渲染後的汽車變成一輛燒燬的汽車或計程車
將一個普通的房子改造成磚房、著火的房子,甚至是鬼屋。
或者將老虎紋、熊貓紋、還有《辛普森一家》的特色應用在任何動物身上...
簡直就是辛普森一家的「動物森友會」...
英偉達介紹,在單個英偉達GPU上訓練,GET3D每秒可以生成大約20個物件。
在此,它所學習的訓練資料集越大、越多樣化,輸出的多樣性和詳細程度就越高。
英偉達稱,研究團隊僅用2天時間,就使用A100 GPU在大約100萬張影象上訓練了模型。
研究方法與過程
GET3D框架,主要作用是合成有紋理的三維形狀。
生成過程分為兩個部分:第一部分是幾何分支,可以輸出任意拓撲結構的表面網格。另一部分則是紋理分支,它會產生一個紋理場,由此可以在表面點上進行查詢。
在訓練過程中,一個可微分光柵化器被用來高效渲染所產生的紋理網格,並渲染成二維的高解析度影象。整個過程是可分的,允許通過傳播二維判別器的梯度,從影象中進行對抗性訓練。
之後,梯度從二維判別器傳播到兩個發生器分支。
研究人員又進行了廣泛的實驗來評估該模型。他們首先將GET3D生成的三維紋理網格的質量與現有的使用ShapeNet和Turbosquid資料集生成的做比較。
接下來,研究人員根據對比結果在之後的研究中對模型進行了優化,並做了更多實驗。
GET3D模型在幾何形狀和紋理能夠實現相分離。
如圖,在每一行中展示了由相同的幾何隱藏程式碼生成的形狀,同時更改了紋理程式碼。
在每一列中展示了由相同的紋理隱藏程式碼生成的形狀,同時更改了幾何程式碼。
另外,研究人員在每一行中相同的紋理隱藏程式碼生成的形狀,從左到右插入幾何隱藏程式碼。
並由相同的幾何隱藏程式碼生成的形狀,同時從上到下插入紋理程式碼。結果顯示,每個插值對生成模型都是有意義的。
在每個模型的子圖中,GET3D能夠在所有類別的不同形狀之間的生成實現平滑過渡。
在每一行中,通過新增一個小噪聲來區域性擾亂隱藏程式碼。通過這種方式,GET3D能夠在區域性生成外觀相似但略有差異的形狀。
研究人員指出,未來版本的GET3D可以使用攝像機姿態估計技術,讓開發人員訓練模型的現實世界的資料,而不是合成數據集。
未來,通過改進,開發人員可以在各種3D形狀上一次性訓練GET3D,而不需要一次在一個物件類別上訓練它。
英偉達人工智慧研究副總裁Sanja Fidler表示,
GET3D讓我們離人工智慧驅動的3D內容創作大眾化又近了一步。它即時生成帶紋理3D形狀的能力可能會改變開發人員的遊戲規則,幫助他們用各種有趣的物件快速填充虛擬世界。
作者介紹
論文一作Jun Gao是多倫多大學機器學習小組的博士生,導師是Sanja Fidler。
除了學歷優異以外,他還是英偉達多倫多人工智慧實驗室的研究科學家。
他的研究主要集中在深度學習(DL),目標直指結構化幾何表示學習。同時,他的研究還從人類對2D和3D影象、影片的感知中獲得見解。
這麼一位優秀的高材生,來自北京大學。他於2018年本科畢業,獲得學士學位。在北大期間,他和王立威教授一同工作。
畢業後他還在斯坦福大學、MSRA和英偉達進行過實習。
http://www.cs.toronto.edu/~jungao/
Jun Gao的導師同樣是業內翹楚。
Fidler是多倫多大學的副教授,Vector研究所的一名教師,同時,她還是該研究所的聯合創始成員之一。
教學之外,她還是英偉達公司的人工智慧研究副總裁,領導著多倫多的一個研究實驗室。
在來到多倫多之前,她是芝加哥豐田技術研究所的研究助理教授。該研究所位於芝加哥大學校園內,算是個學術機構。
Fidler的研究領域集中在計算機視覺(CV)和機器學習(ML),聚焦於CV和圖形學的交叉領域、三維視覺,以及三維重建與合成,還有影象註釋的互動方法等等。
https://www.cs.toronto.edu/~fidler/
參考資料:
https://blogs.nvidia.com/blog/2022/09/23/3d-generative-ai-research-virtual-worlds/
https://nv-tlabs.github.io/GET3D/
https://www.engadget.com/nvidia-ai-model-get3d-virtual-worlds-objects-130021127.html
- 一塊GPU,每秒20個模型!英偉達新玩具用GET3D造元宇宙
- 瓜分2800億美元補貼,美國成立「晶片法案」辦公室!這位華人出任研發主任
- 14nm規模化量產!中芯國際能否撐起「中國芯」?
- 2023USNews全美大學排名出爐!哥大暴跌16名,藤校教育遭質疑
- 拜登親自站臺2奈米!200億美元地球最大矽製造基地啟動,英特爾要逆襲三星臺積電?
- 蘋果預售夜,官網崩了!iPhone 14 Pro被果粉搶空
- McAfee之父沒死?前女友爆上億資產大佬「假自殺」,淪為亡命之徒
- 谷歌逆天「夜視」拍照突然火了!完美降噪還能合成3D視角|CVPR 2022
- 「黑悟空」實機演示炸裂登場,英偉達大秀光追技術
- 聊天截圖曝出AI頂會審稿潛規則!AAAI 3000塊即可strong accept?
- 斯坦福HAI研究院解讀:「晶片法案」撒錢2800億美元,AI行業能拿多少?
- 一碗海峽對岸的「山西刀削麵」,把百度地圖搞崩了!
- 圖靈獎得主,「計算複雜性」理論奠基人Juris Hartmanis逝世,享年94歲
- 新冠之後,WHO宣佈最高級別警告!全球超1.6萬猴痘感染者,遍及75國
- 快了一個0!Meta祭出150億引數蛋白質大模型,碾壓AlphaFold2
- 美參議院初步通過520億美元「晶片法案」,她竟乘機「投資炒股」!
- 突發!李飛飛高徒Karpathy離職,特斯拉自動駕駛要懸?
- LeCun論文被指「洗稿」? LSTM之父發文怒懟:抄我的還標原創
- 谷歌2022學術指標出爐!Nature繼續霸榜,CVPR第4,計算機5頂會入Top20
- CVPR驚現「縫合怪」!韓國團隊連剽10多篇頂會論文,竟評上了Oral