真·007!核酸采样机器人现身郑州;Python3面试准备与速查表;实时语音转文字工具库;AI绘画根据文本创建纹理;前沿论文 | ShowMeAI资讯日报

语言: CN / TW / HK

持续创作,加速成长!这是我参与「掘金日新计划 · 10 月更文挑战」的第3天,点击查看活动详情

👀日报合辑 | 📆电子月刊 | 🔔公众号下载资料 | 🍩@韩信子

📢 机器人进入核酸采样领域,24小时工作不停歇 @郑州

加班或有事耽搁,错过了核酸采样时间?这款24小时连续工作的智能机器人,可以免除这样的尴尬啦!而且机器人结合了力学、视觉、高精密关节模组,可以做到灵活、安全和规范的采样!

据了解,各个功能模块已经研发完成,下一步会继续优化并尽快投入到工作中。其中,作为核心零件的关节模组,也实现了从依赖进口到自主研发的进步,降低了成本。(来源:河南广播电视台新闻中心)

工具&框架

🚧 『Stable Diffusion in Tensorflow / Keras』Tensorflow / Keras 移植版Stable Diffusion模型

https://github.com/divamgupta/stable-diffusion-tensorflow

Stable Diffusion 的 Keras / Tensorflow 实现,模型权重是由原始实现移植过来的。这个项目中还提供了很多可以尝试的 colab 代码。

🚧 『Dream Textures』Blender 着色编辑器的 Stable Diffusion 扩展

https://github.com/carson-katri/dream-textures

Blender shader editor 中内置的 Stable Diffusion 功能,通过一个简单的文本提示来创建纹理、概念艺术、背景等,使用『无缝』选项来创建没有明显接缝的完美贴图的纹理,并快速对现有纹理构建变化。如下所示为 prompt(提示文字)及对应生成的纹理,以及对现有纹理的变化。

🚧 『CHARL-E』一键式安装的 M1 Mac 版Stable Diffusion

https://github.com/cbh123/charl-e

https://www.charl-e.com/

CHARL-E 是一个一键式安装的 M1 Mac 版 Stable Diffusion,不需要复杂的设置、依赖关系或联网,下载和安装后根据提示即可生成图片。

🚧 『Scikit-decide』强化学习与自动调度工具库

https://github.com/airbus/scikit-decide

https://airbus.github.io/scikit-decide/

Scikit-decide 是一个用于强化学习、自动计划和调度的AI框架。

🚧 『streamlit-stt-app』实时语音转文字工具库

https://github.com/whitphx/streamlit-stt-app

https://share.streamlit.io/whitphx/streamlit-stt-app/main/app_deepspeech.py

streamlit-stt-app 是一个用 Streamlit 和 streamlit-webrtc 构建的实时语音转文字应用,它底层使用的语音转文字引擎是 mozilla/DeepSpeech。

博文&分享

👍 『python cp cheatsheet』Python3面试准备与速查表

https://github.com/peterlamar/python-cp-cheatsheet

在大约十年没有使用 Python 之后,作者在自学 Python3 进行各种面试和有趣的 leetcoding 时构建了这个速查表,尝试获得最小的 Python 高频子集。清单包含『Language Mechanics』『Collections』『Algorithms』三个部分:

| Language Mechanics | Collections | Algorithms | |:--|:--|:--| | Literals / Loops / Strings / Slicing / Tuples / Sort / Hash / Set / List / Dict / Binary Tree / heapq / lambda / zip / Random / Constants / Ternary Condition / Bitwise operators / For Else / Modulo / any / all / bisect / math / iter / map / filter / reduce / itertools / regular expression / Types / Grids | Deque / Counter / Default Dict | General Tips / Binary Search / Topological Sort / Sliding Window / Tree Tricks / Binary Search Tree / Anagrams / Dynamic Programming / Cyclic Sort / Quick Sort / Merge Sort / Merge K Sorted Arrays / Linked List / Convert Base / Parenthesis / Max Profit Stock / Shift Array Right / Continuous Subarrays with Sum k / Events / Merge Meetings / Trie / Kadane's Algorithm - Max subarray sum / Union Find/DSU / Fast Power / Fibonacci Golden / Basic Calculator / Reverse Polish / Resevior Sampling / Candy Crush |

数据&资源

🔥 『Awesome Visual Diffusion Models』视觉扩散模型相关资源大列表

https://github.com/Xiefan-Guo/Awesome-Visual-Diffusion-Models

清单包含以下内容:

  • Landmark Papers
  • PapersConference Papers
  • Journal Papers
  • Preprints
  • Tutorials
  • Blogs

研究&论文

公众号后台回复关键字 日报,免费获取整理好的论文合辑。

科研进展

  • 2022.09.15 『数据增强』 A Light Recipe to Train Robust Vision Transformers
  • 2022.09.18 『强化学习』 Honor of Kings Arena: an Environment for Generalization in Competitive Reinforcement Learning
  • 2022.09.16 『姿势预估』 PPT: token-Pruned Pose Transformer for monocular and multi-view human pose estimation

⚡ 论文:A Light Recipe to Train Robust Vision Transformers

论文时间:15 Sep 2022

领域任务:Adversarial Robustness, Data Augmentation, 对抗健壮性数据增强

论文地址:https://arxiv.org/abs/2209.07399

代码实现:https://github.com/dedeswim/vits-robustness-torch

论文作者:Edoardo Debenedetti, Vikash Sehwag, Prateek Mittal

论文简介:Additionally, investigating the reasons for the robustness of our models, we show that it is easier to generate strong attacks during training when using our recipe and that this leads to better robustness at test time./此外,在调查我们的模型的鲁棒性的原因时,我们表明,在使用我们的方法时,在训练期间更容易产生强大的攻击,使得模型在测试时具有更好的鲁棒性。

论文摘要:在本文中,我们问视觉Transformers(ViTs)是否可以作为一个底层架构来提高机器学习模型对逃避攻击的对抗性鲁棒性。虽然早期的工作集中于改善卷积神经网络,但我们表明,ViTs也非常适用于对抗性训练,以实现有竞争力的性能。我们使用一个定制的对抗性训练配方来实现这一目标,该方法是在ImageNet数据集的一个子集上通过严格的消融研究发现的。ViTs的典型训练配方建议进行强大的数据增强,部分原因是为了弥补注意力模块的视觉归纳偏置的不足,与卷积相比。我们表明,在用于对抗性训练时,这个配方实现了次优的性能。相比之下,我们发现,省略所有繁重的数据增强,并增加一些额外的技巧包(ε-warmup和更大的权重衰减),可以显著提高鲁棒的ViTs的性能。我们表明,我们的方法可以推广到不同类别的ViT架构和完整ImageNet-1k上的大规模模型。此外,在研究我们的模型的鲁棒性的原因时,我们表明在使用我们的配方时,在训练期间更容易产生强大的攻击,这导致在测试时具有更好的鲁棒性。最后,我们进一步研究了对抗性训练的一个后果,提出了一种量化对抗性扰动的语义性质的方法,并强调了它与模型鲁棒性的相关性。总的来说,我们建议社区应该避免将ViTs中的典型训练配方转化为鲁棒性训练,并在对抗性训练的背景下重新思考常见的训练选择。

⚡ 论文:Honor of Kings Arena: an Environment for Generalization in Competitive Reinforcement Learning

论文时间:18 Sep 2022

领域任务:reinforcement-learning,强化学习

论文地址:https://arxiv.org/abs/2209.08483

代码实现:https://github.com/tencent-ailab/hok_env

论文作者:Hua Wei, Jingxiao Chen, Xiyang Ji, Hongyang Qin, Minwen Deng, Siqin Li, Liang Wang, Weinan Zhang, Yong Yu, Lin Liu, Lanxiao Huang, Deheng Ye, Qiang Fu, Wei Yang

论文简介:Compared to other environments studied in most previous work, ours presents new generalization challenges for competitive reinforcement learning./与以往大多数工作中研究的其他环境相比,我们的环境为竞争性强化学习提出了新的泛化挑战。

论文摘要:本文介绍了Honor of Kings Arena,一个基于Honor of Kings的强化学习(RL)环境,Honor of Kings是目前世界上最流行的游戏之一。与以往大多数工作中研究的其他环境相比,我们的环境为竞争性强化学习提出了新的泛化挑战。它是一个多代理问题,一个代理与它的对手竞争;它需要泛化能力,因为它有不同的目标需要控制和不同的对手需要竞争。我们描述了《王者荣耀》领域的观察、行动和奖励规范,并提供了一个开源的基于Python的接口,用于与游戏引擎进行通信。我们在《王者荣耀》竞技场中提供了20个目标英雄的各种任务,并介绍了在可行的计算资源下基于RL的方法的初步基线结果。最后,我们展示了《王者荣耀》竞技场所带来的泛化挑战以及对挑战的可能补救措施。所有的软件,包括环境类,都可在 https://github.com/tencent-ailab/hok_env 获取,文档可在 https://aiarena.tencent.com/hok/doc/ 查看。

⚡ 论文:PPT: token-Pruned Pose Transformer for monocular and multi-view human pose estimation

论文时间:16 Sep 2022

领域任务:Pose Estimation,姿势预估

论文地址:https://arxiv.org/abs/2209.08194

代码实现:https://github.com/howiema/ppt

论文作者:Haoyu Ma, Zhe Wang, Yifei Chen, Deying Kong, Liangjian Chen, Xingwei Liu, Xiangyi Yan, Hao Tang, Xiaohui Xie

论文简介:In this paper, we propose the token-Pruned Pose Transformer (PPT) for 2D human pose estimation, which can locate a rough human mask and performs self-attention only within selected tokens./在本文中,我们提出了用于二维人类姿势估计的标记-跑动姿势Transformer(PPT),它可以定位一个粗糙的人类面具,并且只在选定的标记内执行自我关注。

论文摘要:最近,视觉变换器及其变体在单目和多目人类姿态估计中都发挥了越来越重要的作用。考虑到图像斑块作为标记,变换器可以在整个图像或来自其他视图的图像之间建立全局依赖模型。然而,全局关注在计算上是昂贵的。因此,很难将这些基于变换器的方法扩展到高分辨率的特征和许多视图。在本文中,我们提出了用于二维人体姿势估计的标记-奔跑姿势Transformer(PPT),它可以定位一个粗略的人体面具,并且只在选定的标记内执行自我关注。此外,我们将我们的PPT扩展到多视角人体姿势估计。在PPT的基础上,我们提出了一个新的跨视角融合策略,称为人类区域融合,它将所有人类的前景像素视为相应的候选者。在COCO和MPII上的实验结果表明,我们的PPT可以与以前的姿势变换器方法的精度相媲美,同时减少计算量。此外,在Human 3.6M和Ski-Pose上的实验表明,我们的多视图PPT可以有效地融合来自多个视图的线索,并取得最先进的新结果。

我们是 ShowMeAI,致力于传播AI优质内容,分享行业解决方案,用知识加速每一次技术成长!

◉ 点击 日报合辑,在公众号内订阅话题 #ShowMeAI资讯日报,可接收每日最新推送。

◉ 点击 电子月刊,快速浏览月度合辑。

「其他文章」