可生成高清视频的Stable Diffusion来了!分辨率提升4倍,超分算法来自腾讯,支持Colab在线试玩
明敏 发自 凹非寺
量子位 | 公众号 QbitAI
免费玩的Stable diffusion,又出新变种了!
古典人像丝滑切换,还都是4倍超分辨率水平,细节也就多了亿点点吧,眉毛发丝都根根分明。
还能从一盘草莓意大利面,丝滑变成一份蓝莓面。
这就是最近在推特上火了Stable Diffusion视频版2.0.
它能够通过Real-ESRGAN进行上采样,让生成画面达到4倍超分。
要知道,之前Stable Diffusion生成的图像如果想要高清,还得自己手动提升分辨率。
现在直接二合一,在谷歌Colab上就能跑!
食用指南
Colab上的操作非常简单,基本上就是傻瓜式按照步骤运行即可。
需要注意的是,过程中要从个人Hugging Face账户中复制token登入。
拉取模型前,记得在Hugging Face上授权,否则会出现403错误。
搞定以上问题后,就能来用Stable Diffusion来生成高清视频了。
生成一段视频需要给出2个提示词,然后设置中间的步数,以及是否需要上采样。
中间步骤越多,生成所需的时间越长;同样上采样也会一定程度上加长生成时间。
还能直接用代码来跑,修改几个简单的参数就能搞定。
除了线上模式外,该模型还支持本地运行,项目已在GitHub上开源。
注意需要额外安装Real-ESRGAN。
超分算法来自腾讯
简单来说,这次Stable Diffusion的变种版本就是把生成的图片,通过超分辨率方法变得高清。
Stable Diffusion的原理,是扩散模型利用去噪自编码器的连续应用,逐步生成图像。
一般所言的扩散,是反复在图像中添加小的、随机的噪声。而扩散模型则与这个过程相反——将噪声生成高清图像。训练的神经网络通常为U-net。
不过因为模型是直接在像素空间运行,导致扩散模型的训练、计算成本十分昂贵。
基于这样的背景下,Stable Diffusion主要分两步进行。
首先,使用编码器将图像x压缩为较低维的潜在空间表示z(x)。
其中上下文(Context)y,即输入的文本提示,用来指导x的去噪。
它与时间步长t一起,以简单连接和交叉两种方式,注入到潜在空间表示中去。
随后在z(x)基础上进行扩散与去噪。换言之, 就是模型并不直接在图像上进行计算,从而减少了训练时间、效果更好。
再来看超分辨率部分。
用到的方法是腾讯ARC实验室此前开发的 Real-ESRGAN ,被ICCV 2021接收。
它可以更有效地消除低分辩率图像中的 振铃和overshoot伪影 ;
面对真实风景图片,能更逼真地恢复细节,比如树枝、岩石、砖块等。
原理方面,研究人员引出了 高阶退化过程 来模拟出更真实全面的退化,它包含多个重复的经典退化过程,每个又具有不同的退化超参:
下图为Real-ESRGAN进行退化模拟的示意图:
采用的是 二阶退化 ,具体可分为在模糊(blur)、降噪(noise)、resize、JPGE压缩几个方面。
到训练环节,Real-ESRGAN的生成器用的是RRDBNet,还扩展了原始的×4 ESRGAN架构,以执行resize比例因子为×2和×1的超分辨率放大。
想要单独使用这种超分算法也不是问题。
在GitHub上下载该模型的可执行文件,Windows/Linux/MacOS都可以,且不需要CUDA或PyTorch的支持。
下好以后只需在终端执行以下命令即可使用:
./realesrgan-ncnn-vulkan.exe -i input.jpg -o output.png
值得一提的是,Real-ESRGAN的一作 Wang Xintao 是图像/视频超分辨率领域的知名学者。
他本科毕业于浙江大学本科,香港中文大学博士(师从汤晓鸥),现在是腾讯ARC实验室(深圳应用研究中心)的研究员。
此前曾登顶GitHub热榜的项目GFPGAN也是他的代表作。
One More Thing
前两天,大谷老师也发布了用Stable Diffusion生成了一组少女人像,效果非常奈斯。
顺带让我们都完成了一下“阅女无数”的成就(doge)。
Stable Diffusion还能玩出哪些新花样?你不来试试吗?
Colab试玩:
http://colab.research.google.com/github/nateraw/stable-diffusion-videos/blob/main/stable_diffusion_videos.ipynb
GitHub地址:
http://github.com/nateraw/stable-diffusion-videos
Hugging Face授权:
http://huggingface.co/CompVis/stable-diffusion-v1-4
参考链接:
[1]http://twitter.com/_nateraw/status/1569315090314444802
[2]http://www.bilibili.com/video/BV1yd4y1g7Wz?spm_id_from=333.999.0.0
版权所有,未经授权不得以任何形式转载及使用,违者必究。
- LeCun:概率论无法实现真正AI,我们要退回原点重新开始
- Text-to-3D!建筑学小哥自称编程菜鸟,攒了个AI作画三维版,还是彩色的
- 连你家电器的算力都不放过,新发现Linux恶意软件用IoT设备挖矿,大小仅376字节
- Linux之父是个果粉:给自用M2 Mac装上Fedora Linux,除了图形加速和Chrome都搞定了
- 在百度搞发明的人
- 40系显卡首批7199元起!赛博朋克2077帧数x4,老黄:大部分像素都是AI预测而非计算
- DeepMind用新AI超越自己:提速200倍,在所有雅达利游戏上胜过人类
- 比标准Attention快197倍!Meta推出多头注意力机制“九头蛇”
- 可生成高清视频的Stable Diffusion来了!分辨率提升4倍,超分算法来自腾讯,支持Colab在线试玩
- 大规模显卡挖矿彻底凉凉,网友开香槟坐等价格崩盘,老黄连夜发40系预热
- 小鹏打响特斯拉FSD对垒第一枪,城市路况AI开,目前仅限广州
- 学术审稿潜规则被Science曝光:作者名气越大,审稿人打分越高
- 7cm半机械蟑螂火了!极端环境也能做搜救工作,网友:我得吓死
- 2022字节跳动Byte Camp夏令营:53所高校学员云端完成24个项目
- 理想总裁2天套现近1亿上热搜,网友:要跑?
- 抖音智创语音团队三维菁彩声助力总台中秋晚会沉浸式直播
- iOS 16升级引热议,网友吐槽锁屏太花哨,潘粤明更新后一度登不上微信
- 扎克伯格把PyTorch捐了!已归入Linux基金会
- 晚上多吃不一定会胖,Cell子刊最新研究颠覆减肥认知
- 谁是下一个丘成桐?产业界也开始关心这事儿了