Text-to-3D!建築學小哥自稱編程菜鳥,攢了個AI作畫三維版,還是彩色的

語言: CN / TW / HK

colab上在線可玩

衡宇 發自 凹非寺

量子位 | 公眾號 QbitAI

AI畫師,技術又精進了——

直接一句話/一張圖,生成3D模型、環繞視頻、NeRF實例那種。

還是帶顏色的。

輸入“一幅美麗的花樹畫,作者Chiho Aoshima,長鏡頭,超現實主義”,就能瞬間得到一個長這樣的花樹視頻,時長13秒。

這個文本/圖片-3D生成AI,叫 Dreamfields-3D ,來自一個自稱編程菜鳥的建築學在讀博士。

Demo剛被小哥放在微博、推特等平台,許多網友已經急着蹲內測了:

現在,小哥已經將它 開源 ,colab上也能運行。

一起來上手玩玩看~

AI作畫3D版在線玩

Dreamfields-3D玩法十分低門檻,大致只需要三步。這裏介紹一下colab上在線玩的步驟。

首先,檢查一下GPU,再安裝個谷歌驅動器。

第二步,調出工具開始運行,並安裝依賴項。

然後定義一些必要的功能,就可以在colab上訓練和測試了~

玩的時候需要輸入一些參數,保存格式有 視頻網格 兩種,輸出模型格式為帶頂點色的obj和ply。

萬事俱備,讓我們現在開始。

試試輸入“一個賽博朋克風格的飛行霓虹燈汽車,格雷格魯特科夫斯基和西蒙斯大林風格,長鏡頭,CG社會,虛幻的引擎,史詩遊戲”?

會得到一個果然很賽博的汽車的視頻。

如果你是《千與千尋》重度愛好者,想搞張吉卜力風格的視頻玩玩。

沒問題,prompt輸入“一張美麗的天空城市的插圖,吉卜力工作室,藝術站,8k HD,CG社會”,這不就來了——

有網友迫不及待上手,做出了個小計算機。

當然在鵝妹子嚶的驚歎中,也有網友表達了希望Dreamfields-3D更好的期許。

當然,除了文本輸入,Dreamfield3D是支持 圖片 作為prompt的。

不過現在版本還 有待完善 ,如果輸入圖片,會造成過擬合,簡單説就是如果餵它一張車的正面圖,生成的3D視頻中,那輛車可能4個面都是正面……

想要玩兒圖片輸入的友友們,怕是要再等等了。

基於現狀,小哥在GitHub表達了未來的改進目標:

  • 同時使用不同的CLIP模型。
  • 僅在指定方向應用圖像提示。未來可能要加一個圖片角度的約束,例如只有在輸入圖片相同角度時,輸出才參考該圖片。
  • 作為NeRF實例讀取現有網格,然後通過文本/圖像prompt進行修改。
  • 在訓練中減少GPU RAM的使用。

(但小哥説了,自己是個編程菜鳥,後續可不保證哦)doge

基於谷歌Dreamfields-Torch

小哥是建築學出身,據他講,Dreamfield3D是他從創作者角度出發,對Dreamfield-Torch做了些優化,主要的代碼工作還是來自上游的Dreamfields-Torch和Dreamfields。

介紹下, Dreamfields 來自谷歌,它的特點是無需照片樣本,簡簡單單一句話,就能生成3D圖像,還可以生成多種物品組合成的複合結構。

在生成3D場景時,通常會選用 神經輻射場 (NeRF)參數方案。

NeRF的特點是可分別渲染場景,但需要很多張3D照片,才能實現360°視覺重建。

相比之下,Dreamfields生成3D模型 不需要照片 ,因為它基於NeRF 3D場景技術、OpenAI文本生成模型DALL·E以及CLIP的3D生成系統開發,通過神經網絡來儲存3D模型。

DALL·E和CLIP同樣師出谷歌,前者通過文本生成圖像,後者通過文本分類圖片。用CLIP來分類DALL·E生成的圖像,可以提升圖像生成的準確性。

Dreamfields-Torch則是一個經過修改的Dreamfields的Pytorch實現,主要是把原Dreamfields的後端,從原始NeRR換成了instant-ngp。

以此為基礎,小哥做出的Dreamfields-3D基本上靠 CLIP + NERF 運作。

作者簡介

作者蒙勝宇(Simon Meng),奧地利因斯布魯克大學(UIBK)建築學在讀博士。

碩士畢業於倫敦大學學院(UCL)建築學,現為UIBK及UCL技術課程助教及特邀評圖嘉賓,從事建築設計、藝術、AI及生物學跨領域研究。

小哥從去年6、7月份開始關注AI圖像生成。

他發現,很多破圈技術,如clip guide diffusion,disco diffusion,都是一些懂代碼的跨界者做的。

去年年末谷歌發佈Dreamfields,他就動了用它做3D輸出的心思。

於是,在拿到動畫後,他用AI做了超採樣放大和插幀,然後導出幀到普通的多目重建軟件(類似colmap),成功重建mesh(一個用3D模型數據還原的模型圖)。

小哥把mesh發在推特上,結果Dreamfields論文的原作者Ajay Jain聯繫到他,表示了歡迎,還鼓勵他保持優化更新——雖然那時候他用的是普通航拍實景重建軟件,不是編程方法。

上個月,小哥在Dreamfield-Torch的基礎上做了colab版,本月在GitHub開源,讓大家能夠愉快地玩耍。

以及,現在這個已經是基於Marching cubes的船新版本啦~

GitHub地址:

https://github.com/shengyu-meng/dreamfields-3D

colab地址:

https://colab.research.google.com/drive/1u5-zA330gbNGKVfXMW5e3cmllbfafNNB?usp=sharing#scrollTo=_VDLFG_gUEKa

參考鏈接:

[1]https://weibo.com/1948301550/M4o6m3vGn?type=comment#_rnd1663119855180

[2]https://twitter.com/meng_shengyu

[3]https://github.com/ashawkey/dreamfields-torch

版權所有,未經授權不得以任何形式轉載及使用,違者必究。

「其他文章」