特斯拉人形机器人『擎天柱』将亮相AI DAY;Go语言绝美图文教程;正则表达式的救星网站;食品Logo检测数据集;前沿论文 | ShowMeAI资讯日报

语言: CN / TW / HK

携手创作,共同成长!这是我参与「掘金日新计划 · 8 月更文挑战」的第29天,点击查看活动详情

ShowMeAI日报系列全新升级!覆盖AI人工智能 工具&框架 | 项目&代码 | 博文&分享 | 数据&资源 | 研究&论文 等方向。点击查看 历史文章列表,在公众号内订阅话题 #ShowMeAI资讯日报,可接收每日最新推送。点击 专题合辑&电子月刊 快速浏览各专题全集。

📢 特斯拉将于9月30日举办 2022 AI DAY,擎天柱原型机亮相工作

据 Tesla 官方微博和 Twitter 发布的信息,2022年 AI DAY 将于北美时间9月30日开幕。从马斯克的推文及官方推广信息来看,Optimus (擎天柱) 人形机器人将会成为今年特斯拉 AI DAY 的亮点。

Optimus 最初命名为 Tesla Bot,更名大概是受到了变形金刚的影响!2021年 AI DAY 上初次亮相的 Optimus,已经非常引人注目,穿着白色紧身衣,带着闪亮的面罩黑色,酷似外星舞者。 作为特斯拉押宝和优先开发的产品,马斯克对其也寄予厚望,称在未来特斯拉机器人将变得比汽车更有价值。非常期待 Optimus 在今年 AI DAY 中的表现!

工具&框架

🚧 『minimum Redundancy Maximum Relevance』mRMR 高效特征选择算法

https://github.com/smazzanti/mrmr

mRMR(minimum Redundancy Maximum Relevance,最小冗余度-最大相关性)是一种特征选择算法,为给定的机器学习任务找到最小的相关特征子集。mRMR 对建模带来诸多帮助:减少内存消耗、缩短所需时间、提高性能、提高结果的可解释性。这里同步介绍两篇作者所写的mRMR介绍文章。

第一篇『“MRMR” Explained Exactly How You Wished Someone Explained to You』介绍了 Uber 机器学习平台如何使用 mRMR 算法寻找最小最优特征子集。

第二篇『Feature Selection: How to Throw Away 95% of Your Features and Get 95% Accuracy』介绍了 mRMR 在MNIST数据集上效果——只需要 40 个像素即可获得超过 95% 的准确率。

🚧 『TotalSegmentator』对 CT 图像中 104 种重要解剖结构进行可靠分割的工具

https://github.com/wasserth/TotalSegmentator

https://totalsegmentator.com/

TotalSegmentator 是一个医疗影像工具库,用于分割 CT 图像中的104个类别(27个器官 + 59个骨骼 + 10组肌肉 + 8组血管)。

TotalSegmentator 由各种不同的CT图像训练得来(不同的扫描仪、机构、协议等),因此对大多数图像都是适用的。

🚧 『Aquarel』轻松设置 matplotlib 可视化风格

https://github.com/lgienapp/aquarel

Aquarel是一个用于可视化的轻量级模板引擎,也是 Matplotlibs 的 rcparams 包装器,使绘图的样式变得简单。Aquarel 模板可以通过编程定义,并以 JSON 格式进行序列化和共享。具体的一些可视化效果如下图所示,依次为 arctic、boxy、minimal、umbra 的 dark 和 light 两种风格:

🚧 『Pylustrator』以可复现的方式为论文准备插图的软件

https://github.com/rgerum/pylustrator

Pylustrator 是一个以可复现方式为论文准备插图的软件,它提供了一个交互式界面,帮你找到数据呈现在出版物中的最佳方式,添加的格式和造型等可以通过自动生成代码文件。该文件可以准确地再现图形,而无需在外部程序中进行内容调整。特别的,如果你需要将将多个图形进行组合,Pylustrator可以将不同的子图形组合成一个图形。

🚧 『Paddle3D』飞桨官方开源的端到端深度学习3D感知套件

https://github.com/PaddlePaddle/Paddle3D

Paddle3D 是飞桨官方开源的端到端深度学习3D感知套件,涵盖了许多前沿和经典的3D感知模型,支持多种模态和多种任务,可以助力开发者便捷地完成 『自动驾驶』 领域模型 从训练到部署的全流程应用。

Paddle3D具备丰富的模型库、灵活的框架设计、端到端全流程、工业级部署方案、无缝衔接Apollo等特性,支持多种任务类型,提供从数据处理、模型搭建、训练调优到部署落地的全流程能力,并且可以无缝对接Apollo自动驾驶平台。

博文&分享

👍 『正则表达式实例搜集』通过实例来学习正则表达式

https://github.com/jaywcjlove/regexp-example

https://wangchujiang.com/regexp-example/

正则表达式有用但是难记。这个 Repo 提供了正则表达式的实例搜集功能,帮助你通过实例来学习正则表达式。如果有一些基础知识,通过实例理解,将会更快速入门,写出自己的正则。对应的实例网站,可以快速进行正则实例的验证和查询。

如果对正则表达式的基础还不熟悉,推荐学习GitHub 的 50K Star项目『Learn regex the easy way』(https://github.com/ziishaned/learn-regex),这个仓库教程被翻译成十几种语言了,也包含了中文翻译,它通过极其简单的实例,帮助你理解正则基础语法规则。

👍 『Go Course』Go语言入门与进阶课程

https://github.com/karanpratapsingh/go-course

https://www.karanpratapsingh.com/courses/go

Go(也称为Golang)是 Google 于 2007 年开发并于 2009 年开源的一种编程语言,只有 25 个关键字,易于阅读、编写和维护,发展迅速且有一个活跃的社区。

Go 旨在将静态语言的功效、速度、安全性与动态语言的易于编程相结合,使编程再次变得更加有趣。因此,语言功能强大且非常适合分布式系统,可以用于后端开发、云计算以及最近的数据科学等领域。

课程分为 4 个章节,以『图文+代码』的方式讲解 Go 语言的重要知识点,直观易懂。这里以『Interfaces』一节为例,对系列的呈现和风格做简要介绍。

数据&资源

🔥 『Awesome Weakly Supervised Semantic Segmentation Papers』弱监督语义分割相关论文资源列表

https://github.com/PengtaoJiang/Awesome-Weakly-Supervised-Semantic-Segmentation-Papers

🔥 『FoodLogoDet 1500』面向多尺度特征解耦网络食品Logo检测的大规模数据集

https://github.com/hq03/FoodLogoDet-1500-Dataset

食品标识检测因有着广泛的现实应用,例如自助商店的食品推荐、电子商务平台的侵权检测等。FoodLogoDet-1500 是大型公开食品标识数据集,包含 1,500 个类别、约 100,000 张图像和约 150,000 个手动注释的食品标识对象,用于支持食品标识检测算法的开发和模型训练。

下图分别显示了『类别数量的排序分布』和『各类别的统计信息』,可以看到 FoodLogoDet-1500 在不同食品标识类别之间的分布是不平衡的,这对使用少量样本进行有效的食品标识检测提出了挑战。

研究&论文

公众号回复关键字日报,免费获取整理好的论文合辑。

科研进展

  • 2022.08.15 『语言模型』LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale
  • 2022.08.18 『音乐生产』Musika! Fast Infinite Waveform Music Generation
  • 2022.08.14 『视频修补』Flow-Guided Transformer for Video Inpainting
  • 2022.08.17 『图像生成』Paint2Pix: Interactive Painting based Progressive Image Synthesis and Editing

⚡ 论文:LLM.int8: 8-bit Matrix Multiplication for Transformers at Scale

论文时间:15 Aug 2022

领域任务:Language Modelling, Linguistic Acceptability,语言模型

论文地址:https://arxiv.org/abs/2208.07339

代码实现:https://github.com/timdettmers/bitsandbytes

论文作者:Tim Dettmers, Mike Lewis, Younes Belkada, Luke Zettlemoyer

论文简介:We develop a procedure for Int8 matrix multiplication for feed-forward and attention projection layers in transformers, which cut the memory needed for inference by half while retaining full precision performance./我们为transformers中的前馈层和注意投影层开发了一个Int8矩阵乘法程序,它将推理所需的内存减少了一半,同时保留了全精度性能。

论文摘要:大型语言模型已被广泛采用,但推理时需要大量的GPU内存。我们为transformers中的前馈和注意投影层开发了一个Int8矩阵乘法程序,它将推理所需的内存减少了一半,同时保留了全精度性能。用我们的方法,一个175B参数的16/32位检查点可以被加载,转换为Int8,并立即使用,而不会出现性能下降。这一点是通过理解和绕过transformer语言模型中高度系统化的突发特征的特性而实现的,这些特征主导着注意力和transformer的预测性能。为了应对这些特征,我们开发了一个由两部分组成的量化程序:LLM.int8()。我们首先使用矢量量化,对矩阵乘法中的每个内积单独使用归一化常数,对大多数特征进行量化。然而,对于出现的异常值,我们还包括一个新的混合精度分解方案,该方案将异常值特征维度隔离到16位的矩阵乘法中,同时仍有超过99.9%的值是以8位乘法的。使用LLM.int8(),我们根据经验表明有可能在参数高达175B的LLM中进行推理,而不会出现任何性能下降。这一结果使这种模型更容易获得,例如,使其有可能在具有消费级GPU的单一服务器上使用OPT-175B/BLOOM。

⚡ 论文:Musika! Fast Infinite Waveform Music Generation

论文标题

论文时间:18 Aug 2022

领域任务:Music Generation,音乐生产

论文地址:https://arxiv.org/abs/2208.08706

代码实现:https://github.com/marcoppasini/musika

论文作者:Marco Pasini, Jan Schlüter

论文简介:We release the source code and pretrained autoencoder weights at github. com/marcoppasini/musika, such that a GAN can be trained on a new music domain with a single GPU in a matter of hours./我们在github.com/marcoppasini/musika发布了源代码和预训练的自动编码器权重,这样就可以在几个小时内用一个GPU对一个新的音乐领域进行GAN训练。

论文摘要:用户可控的快速音乐生成可以实现新的音乐创作或表演方式。然而,最先进的音乐生成系统需要大量的数据和计算资源进行训练,而且推理速度很慢。这使得它们对于实时互动使用来说不切实际。在这项工作中,我们介绍了Musika,这是一个音乐生成系统,可以使用单个GPU对数百小时的音乐进行训练,并允许在CPU上比实时生成任意长度的音乐。我们通过首先用对抗性自动编码器学习谱图大小和相位的紧凑可逆表示,然后针对特定的音乐领域在这个表示上训练生成对抗网络(GAN)来实现这一目标。一个潜在的坐标系统可以平行地生成任意长的节选序列,而一个全局背景向量可以使音乐在时间上保持风格的一致性。我们进行了定量评估,以评估生成样本的质量,并展示了在钢琴和电子音乐生成中用户控制的选项。我们在 github.com/marcoppasini/musika 上发布了源代码和预训练的自动编码器权重,这样就可以在几个小时内用一个GPU在一个新的音乐领域训练GAN。

⚡ 论文:Flow-Guided Transformer for Video Inpainting

论文时间:14 Aug 2022

领域任务:Video Inpainting,视频修补

论文地址:https://arxiv.org/abs/2208.06768

代码实现:https://github.com/hitachinsk/fgt

论文作者:Kaidong Zhang, Jingjing Fu, Dong Liu

论文简介:Especially in spatial transformer, we design a dual perspective spatial MHSA, which integrates the global tokens to the window-based attention./特别是在空间transformer中,我们设计了一个双视角的空间MHSA,它将全局标记与基于窗口的注意力结合起来。

论文摘要:我们提出了一种流引导的transformer,它创新性地利用了光学流暴露的运动差异来指导transformer中的注意力检索,以实现高保真视频的绘制。更特别的是,我们设计了一个新的光流完成网络,通过利用本地时间窗口的相关光流特征来完成被破坏的光流。有了完整的光流,我们在视频帧中传播内容,并采用流引导的transformer来合成其余的损坏区域。我们沿时间和空间维度对transformer进行解耦,这样我们就可以很容易地整合本地相关的已完成的光流量,只指示空间注意力。此外,我们设计了一个光流加权模块,以精确控制已完成的光流对每个空间transformer的影响。为了提高效率,我们在空间和时间transformer中都引入了窗口划分策略。特别是在空间transformer中,我们设计了一个双视角的空间MHSA,它将全局标记整合到基于窗口的关注中。大量的实验从质量和数量上证明了所提方法的有效性。代码可在 https://github.com/hitachinsk/FGT 获取。

⚡ 论文:Paint2Pix: Interactive Painting based Progressive Image Synthesis and Editing

论文时间:17 Aug 2022

领域任务:Image Generation,图像生成

论文地址:https://arxiv.org/abs/2208.08092

代码实现:https://github.com/1jsingh/paint2pix

论文作者:Jaskirat Singh, Liang Zheng, Cameron Smith, Jose Echevarria

论文简介:In particular, we propose a novel approach paint2pix, which learns to predict (and adapt) "what a user wants to draw" from rudimentary brushstroke inputs, by learning a mapping from the manifold of incomplete human paintings to their realistic renderings./特别地,我们提出了一种新颖的方法paint2pix,它通过学习从不完整的人类绘画流形到其现实渲染的映射,来预测(和适应)用户从基本的笔触输入中 "想画什么"。

论文摘要:用用户的涂鸦进行可控的图像合成是计算机视觉界非常感兴趣的一个话题。在本文中,我们首次研究了从不完整和原始的人类绘画中合成逼真的图像的问题。特别是,我们提出了一种新颖的方法paint2pix,它通过学习从不完整的人类绘画流形到其现实渲染的映射,来预测(并适应)用户从原始笔触输入中 "想要画什么"。当与最近在自主绘画代理方面的工作结合使用时,我们表明paint2pix可以用于从头开始的渐进式图像合成。在这个过程中,paint2pix允许新手逐步合成所需的图像输出,而只需要少数粗略的用户涂鸦来准确地引导合成过程的轨迹。此外,我们发现我们的方法也为真实的图像编辑提供了惊人的便利,并且允许用户通过添加一些位置良好的笔触来进行各种自定义的细粒度编辑。补充视频和演示可在 https://1jsingh.github.io/paint2pix 查看。

我们是 ShowMeAI,致力于传播AI优质内容,分享行业解决方案,用知识加速每一次技术成长!点击查看 历史文章列表,在公众号内订阅话题 #ShowMeAI资讯日报,可接收每日最新推送。点击 专题合辑&电子月刊 快速浏览各专题全集。

「其他文章」