無限視覺生成模型NUWA-Infinity讓視覺藝術創作自由延伸
(本文閱讀時間:6分鐘)
編者按:此前, 微軟亞洲研究院提出了多模態模型 NUWA ,它可以基於給定的文字、視覺或多模態輸入生成影象或視訊,並支援多種視覺藝術作品建立任務,包括文字到影象或視訊的生成、影象補全、視訊預測等。近日,微軟亞洲研究院公開發表了新的研究成果:NUWA 的升級版——無限視覺生成模型 NUWA-Infinity,讓視覺藝術創作趨於“無限流”,可生成任意大小的高解析度影象或長時間視訊。一起來感受一下 AI 的無限創作力吧!
或許你也曾有過這樣的想法——那些“世界名畫”畫框外的景色是怎樣的?
讓 NUWA-Infinity 帶我們去“一探究竟”!
發現梵高《星空》畫框外更廣闊的風景:
“窺探”《清明上河圖》5.287米畫卷外百姓們的千姿百態:
《清明上河圖 》
NUWA-Infinity 基於《清明上河圖》學習後,重新創作生成畫作(解析度:38912x2048)的一部分
NUWA-Infinity 還可以將靜態的影象轉化成超高清視訊,為其帶來“活力”。
原始靜態影象
NUWA-Infinity 基於靜態影象生成的視訊
除此之外,NUWA-Infinity 也可以依據文字生成超高清圖片,為藝術創作帶來更加豐富的想象力。
是不是意猶未盡,還想探索更多?歡迎大家點選閱讀原文,前往 NUWA-Infinity 演示頁面,直觀感受 NUWA-Infinity 的無限創作能力。
為什麼微軟亞洲研究院會開發 NUWA-Infinity,背後又用到了哪些新技術?
隨著以消費為基礎的注意力經濟逐漸轉為以生產為基礎的創意經濟,越來越多的人已經成為日常創作者,通過利用各種圖片、視訊編輯工具,實現藝術作品的創新或再創作。然而,高質量的視覺藝術創作從來都不是一件容易的事,往往需要專業的技能和裝置,並花費大量的時間。與此同時,日常的視覺藝術創作對更高解析度的影象或持續時間更長的視訊也有著越來越高的需求。
為此,微軟亞洲亞洲研究院 NUWA 團隊研發出了無限視覺生成模型 NUWA-Infinity。與同樣覆蓋影象和視訊創作的 NUWA 相比,NUWA-Infinity 在解析度和可變大小視覺藝術作品生成方面具有更優的效能,並支援五個高解析度視覺任務的生成,包括無條件影象生成高解析度圖、文字生成高解析度影象、文字生成高解析度視訊、影象生成高解析度動畫和影象生成高解析度影象。
在 NUWA-Infinity 模型中,研究員們提出了一種全域性自迴歸巢狀區域性自迴歸的生成機制,通過全域性自迴歸建模視覺塊之間的依賴關係和區域性自迴歸建模視覺詞之間的依賴關係,讓 NUWA-Infinity 能夠生成全域性一致且區域性細節豐富的高質量影象和視訊,並提出任意方向控制器(Arbitrary Direction Controller, ADC)來決定合適的生成順序並學習順序感知的位置嵌入。相比其他多模態生成模型, NUWA-Infinity 可以從給定的文字、影象或視訊生成與之相關的任意形狀、任意大小的超高分別率影象 ,以適配不同裝置、平臺和場景; 更重要的是,NUWA-Infinity 還支援長時間視訊的生成,比如影象動畫的製作 。
此外,NUWA-Infinity 模型還引入了附近上下文池(Nearby Context Pool, NCP ) 來快取已經生成的區域性影象,作為正在生成的當前影象的上下文,這可以在不犧牲視覺塊間依賴性的前提下,顯著節省計算成本。NUWA-Infinity 極大地彌補了市場上現有技術僅支援生成大小有限的視覺內容以及視覺內容創作計算成本高昂的不足。
下一步,NUWA 團隊將持續推動 NUWA 的演進,並希望研發出能從三個方面為專業和日常藝術創作者賦能的技術:
-
構思:通過自動快速和多樣化的設計生成能力,降低構思門檻,在構思階段為藝術創作者提供更多資訊和靈感。
-
美學:降低創意門檻,支援普通使用者以適當的美學/設計質量來創作創意作品(NUWA 模型學習了大量高質量/高美學標準的圖片)。
-
效率:通過將 NUWA 的能力集合到一套智慧工具中,來提高創作效率,降低創作工作量。
未來,由 AI 生成的高解析度視覺內容將會更加符合影象設計、廣告、動畫、遊戲等行業的視覺內容創作需求,為創作者提供源源不斷的創造靈感。歡迎更多的科研人員、開發者與微軟亞洲研究院共同探索AI視覺創作領域的廣闊未來。
NUWA 是在科研層面開展的,對視覺藝術作品自動生成技術的前沿探索,旨在探索為視覺藝術創作者提供更智慧的工具,支援他們更好地發揮自己的創意。微軟始終致力於打擊虛假資訊,並盡其所能提供最新技術來檢測被人為操縱的內容,幫助人們識別“深度偽造”(deepfake)的資訊(欲瞭解微軟為打擊虛假資訊所做的努力,請訪問:http://blogs.microsoft.com/on-the-issues/2020/09/01/disinformation-deepfakes-newsguard-video-authenticator/)。同時,微軟的技術進步都接受微軟負責任的 AI 流程的指導,並遵循公平、包容、可靠性與安全性、透明、隱私與保障、負責的原則。
論文連結:
NUWA-Infinity: Autoregressive over Autoregressive Generation for Infinite Visual Synthesis
http://arxiv.org/abs/2207.09814
演示頁面:
http://nuwa-infinity.microsoft.com/
NUWA-Infinity專案頁面:
http://www.microsoft.com/en-us/research/project/nuwa-infinity/
你也許還想看 :
- 厚積薄發三十載,微軟加大在華投入
- 像編輯文字一樣編輯語音,可能嗎?
- 通用多模態基礎模型BEiT-3:引領文字、影象、多模態預訓練邁向“大一統”
- 鄧攀的“貪心”演算法:從生物跨界到計算機是什麼體驗?
- 文件智慧多模態預訓練模型LayoutLMv3:兼具通用性與優越性
- 無限視覺生成模型NUWA-Infinity讓視覺藝術創作自由延伸
- OSDI 2022 | 速來圍觀!微軟亞洲研究院計算機系統領域最新論文!
- 科學智慧(AI4Science)賦能科學發現的第五正規化
- 只有一個地球:看微軟如何在可持續發展課題領域精打細算
- NaturalSpeech模型合成語音在CMOS測試中首次達到真人語音水平
- ACL 2022 | NLP領域最新熱門研究,你一定不能錯過!
- 非自迴歸生成研究最新綜述,近200篇文獻揭示挑戰和未來方向
- ICLR 2022 | 微軟亞洲研究院深度學習領域最新研究成果一覽
- 你還在糾結單個GPU怎麼訓練GPT-3嗎?快來看看HP調優新正規化吧!
- 如何億點點降低語音識別跨領域、跨語種遷移難度?
- Swin Transformer迎來30億引數的v2.0,我們應該擁抱視覺大模型嗎?
- 科學匠人|白靜:擁抱變化,不斷髮現電腦科學中的新天地
- 智慧運維AIOps,加速雲端計算中的正規化轉變
- 你真的瞭解計算生物學和AI for Science嗎?
- AAAI 2022|AI頂會論文究竟關注什麼?