商汤发布象棋机器人『元萝卜』;『南瓜书』西瓜书公式推导&解析;代码自动美化插件;Tock建立对话机器人的AI平台;前沿论文 | ShowMeAI资讯日报

语言: CN / TW / HK

携手创作,共同成长!这是我参与「掘金日新计划 · 8 月更文挑战」的第22天,点击查看活动详情

ShowMeAI日报系列全新升级!覆盖AI人工智能 工具&框架 | 项目&代码 | 博文&分享 | 数据&资源 | 研究&论文 等方向。点击查看 历史文章列表,在公众号内订阅话题 #ShowMeAI资讯日报,可接收每日最新推送。点击 专题合辑&电子月刊 快速浏览各专题全集。

📢 商汤重磅发布『元萝卜SenseRobot』AI下棋机器人,郭晶晶担任首席体验官

http://robot.sensetime.com/

8月9日商汤科技召开新品发布会,重磅推出其首个家庭消费级人工智能产品『元萝卜SenseRobot』AI下棋机器人包含AI学棋、残局挑战、棋力闯关、巅峰挑战等多种模式,可以从『0基础』为孩子介绍和讲解象棋的文化、规则及每个棋子的使用技巧,在锻炼思维的同时,还能提升孩子的文化素养。此外,它还带来100多个残局设定和26个等级的棋力对战,让用户不仅可以体验“执子下棋”的真实感受,还能开动脑力享受高水平对弈的乐趣。

工具&框架

🚧 『TweetNLP』面向Twitter的NLP工具包

http://github.com/cardiffnlp/tweetnlp

http://tweetnlp.org/

TweetNLP 是一款 python 自然语言处理工具库,由最先进的语言模型对推文进行训练得来,提供了一系列有用的工具来分析/理解推文,如情感分析、表情符号预测、命名实体识别、仇恨与工具语言识别等。网站提供了 Demo 可以进行尝试!

🚧 『Spoor』编译器指示的应用程序跟踪,让你深入了解你的应用程序的性能

http://github.com/microsoft/spoor

http://www.spoor.dev/

Spoor 是微软提供的一款工具,能够深入了解应用程序的性能,使我们能够以纳秒级的精度分析应用程序。它包含三部分工具链:编译器仪器化以自动注入跟踪事件、捕获和缓冲事件、处理和可视化跟踪。

🚧 『Tock』开放对话AI平台构建工具包

http://github.com/theopenconversationkit/tock

http://doc.tock.ai/en/

Tock是开放对话式人工智能平台,可用于建立对话机器人,具备一系列很好的特性:

  • 自然语言处理开源堆栈,与OpenNLP、斯坦福、Rasa等兼容
  • 构建故事和分析的Tock Studio用户界面;用于Kotlin、Nodejs、Python和REST API的对话DSL
  • 内置众多文本/语音渠道的连接器(Messenger、WhatsApp、谷歌助手、Alexa、Twitter等)
  • 提供了与React和Flutter进行自定义Web/移动集成的工具包
  • 利用Docker在任何地方(云端或内部)部署

🚧 『Jupyter Notebooks』代码自动美化插件

jupyterlab_code_formatter 是一个 jupyter notebook 的美化插件,可以通过 conda install -c conda-forge jupyterlab_code_formatter black isort 命令安装,它能对我们编写的代码段落进行自动美化排版,具体效果如下图所示:

博文&分享

👍 『文本数据分析·高级可视化』Advanced Visualisations for Text Data Analysis

http://towardsdatascience.com/advanced-visualisations-for-text-data-analysis-fc8add8796e2

这篇博文对Python中的文本数据的几个高级可视化方法进行讲解,包括:

  • N-gram词云:显示高阶N-gram的频率
  • 和弦图:显示几个实体之间的联系和它们的强度
  • 气泡图:在视觉上显示词的频率

👍 『南瓜书 PumpkinBook』免费书籍

http://datawhalechina.github.io/pumpkin-book/#/

下载:http://github.com/datawhalechina/pumpkin-book/releases

周志华老师的《机器学习》(西瓜书)是机器学习领域的经典入门教材之一,周老师为了使尽可能多的读者通过西瓜书对机器学习有所了解, 所以在书中对部分公式的推导细节没有详述,但是这对那些想深究公式推导细节的读者来说可能“不太友好”,本书旨在对西瓜书里比较难理解的公式加以解析,以及对部分公式补充具体的推导细节。

数据&资源

🔥 『Computer Vision』微软·计算机视觉最佳实践、代码示例和相关文档

http://github.com/microsoft/computervision-recipes

这个 github 资源库是微软组织的计算机视觉系统构建示例和最佳实践指南,主要针对图像分类、物体检测和图像相似性等典型任务,大部分例子以Jupyter notebook和常见的实用函数的形式提供,并使用PyTorch作为底层深度学习库。

Repo 示例基于目前最先进的库构建,并围绕加载图像数据、建模优化和评估以及扩展到云端建立额外的效用。此外,还包含微软指出的经常观察到的陷阱,以及在云环境进行训练和部署的方法。

研究&论文

公众号回复关键字日报,免费获取整理好的论文合辑。

科研进展

  • 2022.08.08 『姿态估计』3D Vision with Transformers: A Survey
  • 2022.05.10 『3D人脸建模』KeypointNeRF: Generalizing Image-based Volumetric Avatars using Relative Spatial Encoding of Keypoints
  • 2022.08.02 『单目视觉运动学』Deep Patch Visual Odometry
  • 2022.07.12 『计算机视觉』Next-ViT: Next Generation Vision Transformer for Efficient Deployment in Realistic Industrial Scenarios

⚡ 论文:3D Vision with Transformers: A Survey

论文时间:8 Aug 2022

领域任务:Pose Estimation,姿态估计

论文地址:http://arxiv.org/abs/2208.04309

代码实现:http://github.com/lahoud/3d-vision-transformers

论文作者:Jean Lahoud, Jiale Cao, Fahad Shahbaz Khan, Hisham Cholakkal, Rao Muhammad Anwer, Salman Khan, Ming-Hsuan Yang

论文简介:The success of the transformer architecture in natural language processing has recently triggered attention in the computer vision field./transformer架构在自然语言处理中的成功最近引发了计算机视觉领域的关注。

论文摘要:transformer架构在自然语言处理中的成功,最近在计算机视觉领域引发了关注。由于transformer具有学习长距离依赖关系的能力,它已被用作广泛使用的卷积算子的替代品。这种替代被证明在许多任务中是成功的,在这些任务中,一些最先进的方法依靠transformer进行更好的学习。在计算机视觉中,三维领域也见证了越来越多的采用transformer的三维卷积神经网络和多层感知器网络。尽管许多调查都集中在视觉中的transformer上,但由于与二维视觉相比,三维视觉在数据表示和处理方面存在差异,因此需要特别关注。在这项工作中,我们对100多种用于不同三维视觉任务的transformer方法进行了系统和彻底的回顾,包括分类、分割、检测、完成、姿态估计等。我们讨论了三维视觉中的transformer设计,这使得它可以处理具有各种三维表示的数据。对于每个应用,我们强调了所提出的基于transformer的方法的关键属性和贡献。为了评估这些方法的竞争力,我们在12个三维基准上将它们的性能与普通的非变压器方法进行比较。在调查的最后,我们讨论了三维视觉中transformer的不同开放方向和挑战。除了所提交的论文外,我们的目标是经常更新最新的相关论文及其相应的实施方案,对应的网址是:http://github.com/lahoud/3d-vision-transformers

⚡ 论文:KeypointNeRF: Generalizing Image-based Volumetric Avatars using Relative Spatial Encoding of Keypoints

论文时间:10 May 2022

领域任务:3D FACE MODELING, 3D Face Reconstruction,3D人脸建模3D人脸重建

论文地址:http://arxiv.org/abs/2205.04992

代码实现:http://github.com/facebookresearch/KeypointNeRF

论文作者:Marko Mihajlovic, Aayush Bansal, Michael Zollhoefer, Siyu Tang, Shunsuke Saito

论文简介:In this work, we investigate common issues with existing spatial encodings and propose a simple yet highly effective approach to modeling high-fidelity volumetric humans from sparse views./在这项工作中,我们研究了现有空间编码的常见问题,并提出了一种简单而高效的方法,以从稀疏视图中建立高保真的体积人类模型。

论文摘要:基于图像的体积化人类使用像素对齐的特征,有望泛化到未见过的姿势和身份。先前的工作利用全局空间编码和多视图几何一致性来减少空间模糊性。然而,全局编码经常遭受对训练数据分布的过度拟合,而且很难从稀疏视图中学习多视图一致性重建。在这项工作中,我们研究了现有空间编码的常见问题,并提出了一种简单而高效的方法,以从稀疏视图中建立高保真体积的人类模型。其中一个关键的想法是通过稀疏的三维关键点来编码相对空间三维信息。这种方法对视点的稀疏性和跨数据集领域的差距具有鲁棒性。我们的方法在头部重建方面优于最先进的方法。在对未见过的受试者进行人体重建时,我们也取得了与之前使用参数化人体模型和时间特征聚合的工作相当的性能。我们的实验表明,先前工作中的大部分错误源于对空间编码的不恰当选择,因此我们为基于图像的高保真人体建模提出了一个新方向 http://markomih.github.io/KeypointNeRF

⚡ 论文:Deep Patch Visual Odometry

论文时间:8 Aug 2022

领域任务:Monocular Visual Odometry,单目视觉运动学

论文地址:http://arxiv.org/abs/2208.04726

代码实现:http://github.com/princeton-vl/dpvo

论文作者:Zachary Teed, Lahav Lipson, Jia Deng

论文简介:We propose Deep Patch Visual Odometry (DPVO), a new deep learning system for monocular Visual Odometry (VO)./我们提出了Deep Patch Visual Odometry (DPVO),这是一个新的深度学习系统,用于单目视觉测绘(VO)。

论文摘要: 我们提出了Deep Patch Visual Odometry(DPVO),一个新的深度学习系统,用于单眼视觉测量(VO)。DPVO是准确和稳健的,同时在单个RTX-3090 GPU上以2-5倍的实时速度运行,只使用4GB的内存。我们在标准基准上进行了评估,在准确性和速度上都超过了所有先前的工作(经典或新方法)。代码可在 http://github.com/princeton-vl/DPVO 获取。

⚡ 论文:Next-ViT: Next Generation Vision Transformer for Efficient Deployment in Realistic Industrial Scenarios

论文时间:12 Jul 2022

领域任务计算机视觉

论文地址:http://arxiv.org/abs/2207.05501

代码实现:http://github.com/bytedance/next-vit,http://github.com/wilile26811249/Next-ViT

论文作者:Jiashi Li, Xin Xia, Wei Li, Huixia Li, Xing Wang, Xuefeng Xiao, Rui Wang, Min Zheng, Xin Pan

论文简介:Then, Next Hybrid Strategy (NHS) is designed to stack NCB and NTB in an efficient hybrid paradigm, which boosts performance in various downstream tasks./然后,下一个混合策略(NHS)被设计为在一个高效的混合范式中堆叠NCB和NTB,从而提升了各种下游任务的性能。

论文摘要:由于复杂的注意力机制和模型设计,大多数现有的视觉transformer(ViTs)在现实的工业部署场景中不能像卷积神经网络(CNNs)那样有效地执行,例如TensorRT和CoreML。这就提出了一个明显的挑战。能否设计一个视觉神经网络,使其推断速度与CNN一样快,性能与ViTs一样强大?最近的工作试图设计CNN-Transformer混合架构来解决这个问题,然而这些工作的整体性能远远不能令人满意。为了解决这些问题,我们提出了下一代视觉transformer,即Next-ViT,用于在现实的工业场景中有效部署,从延迟/准确度权衡的角度来看,它在CNN和ViT中都占优势。在这项工作中,Next Convolution Block(NCB)和Next Transformer Block(NTB)分别被开发出来,以方便部署的机制捕捉局部和全局信息。然后,设计了Next Hybrid Strategy(NHS),将NCB和NTB堆叠在一个高效的混合范式中,从而提高了各种下游任务的性能。大量的实验表明,Next-ViT在各种视觉任务中的延迟/精度权衡方面明显优于现有的CNN、ViT和CNN-Transformer混合架构。在TensorRT上,Next-ViT在COCO检测上超过ResNet 5.5 mAP(从40.4到45.9),在ADE20K分割上超过7.7% mIoU(从38.8%到46.5%)。同时,它取得了与CSWin相当的性能,而推理速度则加快了3.6倍。在CoreML上,Next-ViT在COCO检测上超过EfficientFormer 4.6 mAP(从42.6到47.2),在ADE20K分割上超过3.5% mIoU(从45.1%到48.6%)。我们的代码和模型在以下网站公开:http://github.com/bytedance/Next-ViT

我们是 ShowMeAI,致力于传播AI优质内容,分享行业解决方案,用知识加速每一次技术成长!点击查看 历史文章列表,在公众号内订阅话题 #ShowMeAI资讯日报,可接收每日最新推送。点击 专题合辑&电子月刊 快速浏览各专题全集。

「其他文章」