BBQ!又被AI调戏了!『代码整洁之道』读书笔记;ETH『数理统计基础』最新课程;Meta 从大脑活动中解码语音;前沿论文 | ShowMeAI资讯日报

语言: CN / TW / HK

我报名参加金石计划1期挑战——瓜分10万奖池,这是我的第1篇文章,点击查看活动详情

👀日报合辑 | 📆电子月刊 | 🔔公众号下载资料 | 🍩@韩信子

📢 AI 生成的中国山水画缺少意境?和菜头:亲,这是黄公望的原图,元代~

https://mp.weixin.qq.com/s/fgAEiw0d7ZaBDfLd-Ro8YQ

和菜头作为互联网老老老鸟,最近几个月加入了 Stable Diffusion 和 DALL·E 2 的AI绘画行列,调教模型生成公众号封面图,目标是画出『关公骑哈雷摩托兜风图』。昨天中午在公众号『槽边往事』放出了4张AI绘制的中国山水画,评论里一堆人说没意境、没气韵、没审美。于是下午又放出一张(如下),依旧被批没留白、机械味。

菜头叔评论揭晓答案,这是黄公望《天池石壁图》局部。原图现藏北京故宫博物院的那种 🤭 作者黄公望被视为中国山水画发展史上里程碑式的人物,另一幅传世画作是大名鼎鼎的《富春山居图》。所以,AI 绘画真的没意境吗?还是我们先入为主,或者倔强地不愿认输?

工具&框架

🚧 『vedo』基于 VTK 和 Numpy 的 3D 物体科学分析与可视化模块

https://github.com/marcomusy/vedo

https://vedo.embl.es/

vedo 是一个轻量且功能强大的 Python 工具库,以 VTK 和 numpy 为基础,用于科学分析和 3D 物体的可视化。基于 vedo 可以轻松处理 3D 点云、网格和 volumes 的工作,只需几行代码。

🚧 『Basic Pitch』自动音乐音频转录库

https://github.com/spotify/basic-pitch-ts

https://basicpitch.spotify.com/

Basic Pitch 是一个用于自动音乐转录(AMT)的 Typescript 和 Python 库,使用由 Spotify 音频智能实验室开发的轻量级神经网络。你只需提供一个兼容的音频文件,basic-pitch 就会生成一个带有音弯的 MIDI 文件,下载后就可以在数字音频工作站进行微调和修正。Basic Pitch 很小且容易使用,可以在 npm 上安装,对多音阶的支持、对不同乐器的概括能力以及它的音符准确性都能与更大、更耗资源的 AMT 系统竞争。

🚧 『ZenML』可扩展的开源 MLOps 框架,用于创建可用于生产的机器学习管道

https://github.com/zenml-io/zenml

https://zenml.io/home

ZenML 是一个可扩展的、开源的 MLOps 框架,用于创建可迁移的、可用于生产的 MLOps 管道。它是为数据科学家、机器学习工程师和 MLOps 开发人员建立的,便于其在开发到生产过程中进行协作。ZenML 语法简单灵活,与云环境和工具无关,并且有 ML 工作流程的接口。

🚧 『YOLO Series』基于 PaddleDetection 的 YOLO 系列模型库

https://github.com/nemonameless/PaddleDetection_YOLOSeries

YOLOSeries 是基于 PaddleDetection 的 YOLO 系列模型库,支持 PP-YOLOE、YOLOv3、YOLOX、YOLOv5、MT-YOLOv6、YOLOv7 等模型,其上游依赖为 PaddleDetection 的 develop 分支,并与 PaddleDetection 主代码库分支同步更新,包括 github 和 gitee 代码。

🚧 『text_normalization』中文文本规范化工具

https://github.com/pengzhendong/text_normalization

text normalization 是一个小型的 NLP 工具库,它可以用于文本的规范化,覆盖预处理、表达标准化、后处理等环节,可以完成类似全角半角转换、标点规范化、中文数字、分数、百分比、日期、单位 处理等等操作。

博文&分享

👍 『Fundamentals of Mathematical Statistics』苏黎世联邦理工·数理统计基础·2021课程

https://video.ethz.ch/lectures/d-math/2021/autumn/401-3621-00L.html

👍 『Using AI to decode speech from brain activity』Meta AI博客:利用AI从大脑活动中解码语音

https://ai.facebook.com/blog/ai-speech-brain-activity/

https://arxiv.org/abs/2208.12266

全世界每年有超过 6900 万的人因为创伤性脑损伤无法通过语音、打字或手势进行交流。Meta 的工程师开发了一种 AI 模型,以非侵入的方式从大脑活动记录中解码语音。结果表明,在三秒的大脑活动中,模型可以从 793 个日常高频应用的词汇表中解码相应的语音片段,准确率高达 73%。

团队使用了四个学术机构开源的 EEG(脑电图)和 MEG(脑磁图) 数据集,169 名健康志愿者的 150 多个小时的录音。将这些 EEG 和 MEG 记录输入到一个『大脑』模型中,该模型由一个带有残差连接的标准深度卷积网络组成。最后,架构学习将『这个大脑模型的输出』与『呈现给参与者语音的深度表示』二者保持一致。

当然这些只是第一步。当前只专注于解码语音感知,但实现患者交流的最终目标是将这项工作扩展到语音输出。团队仍在努力中!

数据&资源

🔥 『Clean Code Notes』代码整洁之道·笔记

https://github.com/JuanCrg90/Clean-Code-Notes

《Clean Code (代码整洁之道)》是著名软件专家 Robert C. Martin 提出的一种革命性的范式。作者将与同事们整理代码的最佳实践经验提炼成了一本书。全书分为三个部分:

  • 第一部分描述了编写整洁代码的原则、模式和实践。
  • 第二部分由几个复杂程度越来越高的案例研究组成。
  • 第三部分是创建案例研究时收集的知识库,描述了编写、阅读和整理代码时的思考方式。

这个项目是书籍的学习笔记,整理了全书17个章节的知识要点和关键代码。

🔥 『Representation Learning for Reinforcement Learning』面向强化学习的表示学习相关文献列表

https://github.com/fuyw/RepL4RL

研究&论文

公众号后台回复关键字 日报,免费获取整理好的论文合辑。

科研进展

  • 2022.08.26 『人脸生成』 Training and Tuning Generative Neural Radiance Fields for Attribute-Conditional 3D-Aware Face Generation
  • 2022.08.26 『场景文字识别』 Arbitrary Shape Text Detection via Segmentation with Probability Maps
  • 2022.01.19 『姿态检测』 Poseur: Direct Human Pose Regression with Transformers

⚡ 论文:Training and Tuning Generative Neural Radiance Fields for Attribute-Conditional 3D-Aware Face Generation

论文时间:26 Aug 2022

领域任务:Disentanglement, Face Generation,人脸生成

论文地址:https://arxiv.org/abs/2208.12550

代码实现:https://github.com/zhangqianhui/tt-gnerf

论文作者:Jichao Zhang, Aliaksandr Siarohin, Yahui Liu, Hao Tang, Nicu Sebe, Wei Wang

论文简介:To this end, we introduce a conditional GNeRF model that uses specific attribute labels as input in order to improve the controllabilities and disentangling abilities of 3D-aware generative models./为此,我们引入了一个有条件的GNeRF模型,该模型使用特定的属性标签作为输入,以提高3D感知生成模型的可控性和解耦能力。

论文摘要:基于生成神经辐射场(GNeRF)的3D感知GANs已经实现了令人印象深刻的高质量图像生成,同时保持了强大的3D一致性。最引人注目的成就是在人脸生成领域取得的。然而,这些模型大多侧重于提高视图的一致性,但忽略了解构方面,因此这些模型不能对生成提供高质量的语义/属性控制。为此,我们引入了一个有条件的GNeRF模型,使用特定的属性标签作为输入,以提高三维感知生成模型的可控性和解缠能力。我们利用预先训练好的三维感知模型作为基础,并整合了一个双分支属性编辑模块(DAEM),利用属性标签来提供对生成的控制。此外,我们提出了TRIOT(TRaining as Init, and Optimizing for Tuning)方法,以优化潜在向量,进一步提高属性编辑的精度。在广泛使用的FFHQ上进行的大量实验表明,我们的模型产生了高质量的编辑,具有更好的视图一致性,同时保留了非目标区域。该代码可在https://github.com/zhangqianhui/TT-GNeRF获取。

⚡ 论文:Arbitrary Shape Text Detection via Segmentation with Probability Maps

论文时间:26 Aug 2022

领域任务:Scene Text Detection,场景文字识别,计算机视觉

论文地址:https://arxiv.org/abs/2208.12419

代码实现:https://github.com/gxym/textpms

论文作者:Shi-Xue Zhang, Xiaobin Zhu, Lei Chen, Jie-Bo Hou, Xu-Cheng Yin

论文简介:To be concrete, we adopt a Sigmoid Alpha Function (SAF) to transfer the distances between boundaries and their inside pixels to a probability map./具体来说,我们采用Sigmoid Alpha函数(SAF)将边界和其内部像素之间的距离转移到概率图中。

论文摘要:不规则形状的文本检测是一项具有挑战性的任务,因为其尺寸和长宽比明显不同,任意的方向或形状,不准确的注释等等。由于像素级预测的可扩展性,基于分割的方法可以适应各种形状的文本,因此最近吸引了大量的关注。然而,准确的文本像素级注释是非常困难的,现有的场景文本检测数据集只提供粗粒度的边界注释。因此,许多被误判的文本像素或注释内的背景像素总是存在,降低了基于分割的文本检测方法的性能。一般来说,一个像素是否属于文本,与相邻注释边界的距离高度相关。基于这一观察,在本文中,我们提出了一种创新的、稳健的基于分割的检测方法,通过概率图来准确检测文本实例。具体来说,我们采用Sigmoid Alpha函数(SAF)将边界和其内部像素之间的距离转移到概率图中。然而,由于粗粒度的文本边界注释的不确定性,一个概率图不能很好地覆盖复杂的概率分布。因此,我们采用一组由一系列Sigmoid Alpha函数计算的概率图来描述可能的概率分布。此外,我们提出一个迭代模型来学习预测和吸收概率图,以提供足够的信息来重建文本实例。最后,我们采用了简单的区域增长算法来聚合概率图以完成文本实例。实验结果表明,我们的方法在几个基准的检测精度方面达到了最先进的性能。

⚡ 论文:Poseur: Direct Human Pose Regression with Transformers

论文时间:19 Jan 2022

领域任务:计算机视觉,姿态检测

论文地址:https://arxiv.org/abs/2201.07412

代码实现:https://github.com/aim-uofa/poseur

论文作者:Weian Mao, Yongtao Ge, Chunhua Shen, Zhi Tian, Xinlong Wang, Zhibin Wang, Anton Van Den Hengel

论文简介:We propose a direct, regression-based approach to 2D human pose estimation from single images./我们提出了一种直接的、基于回归的方法来从单一图像中进行二维人体姿势估计。

论文摘要:我们提出了一种直接的、基于回归的方法来从单一图像中进行二维人体姿势估计。我们将该问题表述为一个序列预测任务,并使用一个Transformer网络来解决。这个网络直接学习了从图像到关键点坐标的回归映射,而不需要借助热图等中间表示方法。这种方法避免了与基于热图的方法有关的许多复杂性。为了克服以前基于回归的方法中的特征错位问题,我们提出了一种注意力机制,它可以自适应地关注与目标关键点最相关的特征,从而大大改善准确性。重要的是,我们的框架是端到端的可区分的,并自然地学习利用关键点之间的依赖关系。在MS-COCO和MPII这两个主要的姿势估计数据集上的实验表明,我们的方法大大改善了基于回归的姿势估计的最先进水平。更值得注意的是,我们的方法是第一个基于回归的方法,与最好的基于热图的姿势估计方法相比,表现良好。

我们是 ShowMeAI,致力于传播AI优质内容,分享行业解决方案,用知识加速每一次技术成长!

◉ 点击 日报合辑,在公众号内订阅话题 #ShowMeAI资讯日报,可接收每日最新推送。

◉ 点击 电子月刊,快速浏览月度合辑。

「其他文章」