真·007!核酸取樣機器人現身鄭州;Python3面試準備與速查表;實時語音轉文字工具庫;AI繪畫根據文字建立紋理;前沿論文 | ShowMeAI資訊日報

語言: CN / TW / HK

持續創作,加速成長!這是我參與「掘金日新計劃 · 10 月更文挑戰」的第3天,點選檢視活動詳情

👀日報合輯 | 📆電子月刊 | 🔔公眾號下載資料 | 🍩@韓信子

📢 機器人進入核酸取樣領域,24小時工作不停歇 @鄭州

加班或有事耽擱,錯過了核酸取樣時間?這款24小時連續工作的智慧機器人,可以免除這樣的尷尬啦!而且機器人結合了力學、視覺、高精密關節模組,可以做到靈活、安全和規範的取樣!

據瞭解,各個功能模組已經研發完成,下一步會繼續優化並儘快投入到工作中。其中,作為核心零件的關節模組,也實現了從依賴進口到自主研發的進步,降低了成本。(來源:河南廣播電視臺新聞中心)

工具&框架

🚧 『Stable Diffusion in Tensorflow / Keras』Tensorflow / Keras 移植版Stable Diffusion模型

https://github.com/divamgupta/stable-diffusion-tensorflow

Stable Diffusion 的 Keras / Tensorflow 實現,模型權重是由原始實現移植過來的。這個專案中還提供了很多可以嘗試的 colab 程式碼。

🚧 『Dream Textures』Blender 著色編輯器的 Stable Diffusion 擴充套件

https://github.com/carson-katri/dream-textures

Blender shader editor 中內建的 Stable Diffusion 功能,通過一個簡單的文字提示來建立紋理、概念藝術、背景等,使用『無縫』選項來建立沒有明顯接縫的完美貼圖的紋理,並快速對現有紋理構建變化。如下所示為 prompt(提示文字)及對應生成的紋理,以及對現有紋理的變化。

🚧 『CHARL-E』一鍵式安裝的 M1 Mac 版Stable Diffusion

https://github.com/cbh123/charl-e

https://www.charl-e.com/

CHARL-E 是一個一鍵式安裝的 M1 Mac 版 Stable Diffusion,不需要複雜的設定、依賴關係或聯網,下載和安裝後根據提示即可生成圖片。

🚧 『Scikit-decide』強化學習與自動排程工具庫

https://github.com/airbus/scikit-decide

https://airbus.github.io/scikit-decide/

Scikit-decide 是一個用於強化學習、自動計劃和排程的AI框架。

🚧 『streamlit-stt-app』實時語音轉文字工具庫

https://github.com/whitphx/streamlit-stt-app

https://share.streamlit.io/whitphx/streamlit-stt-app/main/app_deepspeech.py

streamlit-stt-app 是一個用 Streamlit 和 streamlit-webrtc 構建的實時語音轉文字應用,它底層使用的語音轉文字引擎是 mozilla/DeepSpeech。

博文&分享

👍 『python cp cheatsheet』Python3面試準備與速查表

https://github.com/peterlamar/python-cp-cheatsheet

在大約十年沒有使用 Python 之後,作者在自學 Python3 進行各種面試和有趣的 leetcoding 時構建了這個速查表,嘗試獲得最小的 Python 高頻子集。清單包含『Language Mechanics』『Collections』『Algorithms』三個部分:

| Language Mechanics | Collections | Algorithms | |:--|:--|:--| | Literals / Loops / Strings / Slicing / Tuples / Sort / Hash / Set / List / Dict / Binary Tree / heapq / lambda / zip / Random / Constants / Ternary Condition / Bitwise operators / For Else / Modulo / any / all / bisect / math / iter / map / filter / reduce / itertools / regular expression / Types / Grids | Deque / Counter / Default Dict | General Tips / Binary Search / Topological Sort / Sliding Window / Tree Tricks / Binary Search Tree / Anagrams / Dynamic Programming / Cyclic Sort / Quick Sort / Merge Sort / Merge K Sorted Arrays / Linked List / Convert Base / Parenthesis / Max Profit Stock / Shift Array Right / Continuous Subarrays with Sum k / Events / Merge Meetings / Trie / Kadane's Algorithm - Max subarray sum / Union Find/DSU / Fast Power / Fibonacci Golden / Basic Calculator / Reverse Polish / Resevior Sampling / Candy Crush |

資料&資源

🔥 『Awesome Visual Diffusion Models』視覺擴散模型相關資源大列表

https://github.com/Xiefan-Guo/Awesome-Visual-Diffusion-Models

清單包含以下內容:

  • Landmark Papers
  • PapersConference Papers
  • Journal Papers
  • Preprints
  • Tutorials
  • Blogs

研究&論文

公眾號後臺回覆關鍵字 日報,免費獲取整理好的論文合輯。

科研進展

  • 2022.09.15 『資料增強』 A Light Recipe to Train Robust Vision Transformers
  • 2022.09.18 『強化學習』 Honor of Kings Arena: an Environment for Generalization in Competitive Reinforcement Learning
  • 2022.09.16 『姿勢預估』 PPT: token-Pruned Pose Transformer for monocular and multi-view human pose estimation

⚡ 論文:A Light Recipe to Train Robust Vision Transformers

論文時間:15 Sep 2022

領域任務:Adversarial Robustness, Data Augmentation, 對抗健壯性資料增強

論文地址:https://arxiv.org/abs/2209.07399

程式碼實現:https://github.com/dedeswim/vits-robustness-torch

論文作者:Edoardo Debenedetti, Vikash Sehwag, Prateek Mittal

論文簡介:Additionally, investigating the reasons for the robustness of our models, we show that it is easier to generate strong attacks during training when using our recipe and that this leads to better robustness at test time./此外,在調查我們的模型的魯棒性的原因時,我們表明,在使用我們的方法時,在訓練期間更容易產生強大的攻擊,使得模型在測試時具有更好的魯棒性。

論文摘要:在本文中,我們問視覺Transformers(ViTs)是否可以作為一個底層架構來提高機器學習模型對逃避攻擊的對抗性魯棒性。雖然早期的工作集中於改善卷積神經網路,但我們表明,ViTs也非常適用於對抗性訓練,以實現有競爭力的效能。我們使用一個定製的對抗性訓練配方來實現這一目標,該方法是在ImageNet資料集的一個子集上通過嚴格的消融研究發現的。ViTs的典型訓練配方建議進行強大的資料增強,部分原因是為了彌補注意力模組的視覺歸納偏置的不足,與卷積相比。我們表明,在用於對抗性訓練時,這個配方實現了次優的效能。相比之下,我們發現,省略所有繁重的資料增強,並增加一些額外的技巧包(ε-warmup和更大的權重衰減),可以顯著提高魯棒的ViTs的效能。我們表明,我們的方法可以推廣到不同類別的ViT架構和完整ImageNet-1k上的大規模模型。此外,在研究我們的模型的魯棒性的原因時,我們表明在使用我們的配方時,在訓練期間更容易產生強大的攻擊,這導致在測試時具有更好的魯棒性。最後,我們進一步研究了對抗性訓練的一個後果,提出了一種量化對抗性擾動的語義性質的方法,並強調了它與模型魯棒性的相關性。總的來說,我們建議社群應該避免將ViTs中的典型訓練配方轉化為魯棒性訓練,並在對抗性訓練的背景下重新思考常見的訓練選擇。

⚡ 論文:Honor of Kings Arena: an Environment for Generalization in Competitive Reinforcement Learning

論文時間:18 Sep 2022

領域任務:reinforcement-learning,強化學習

論文地址:https://arxiv.org/abs/2209.08483

程式碼實現:https://github.com/tencent-ailab/hok_env

論文作者:Hua Wei, Jingxiao Chen, Xiyang Ji, Hongyang Qin, Minwen Deng, Siqin Li, Liang Wang, Weinan Zhang, Yong Yu, Lin Liu, Lanxiao Huang, Deheng Ye, Qiang Fu, Wei Yang

論文簡介:Compared to other environments studied in most previous work, ours presents new generalization challenges for competitive reinforcement learning./與以往大多數工作中研究的其他環境相比,我們的環境為競爭性強化學習提出了新的泛化挑戰。

論文摘要:本文介紹了Honor of Kings Arena,一個基於Honor of Kings的強化學習(RL)環境,Honor of Kings是目前世界上最流行的遊戲之一。與以往大多數工作中研究的其他環境相比,我們的環境為競爭性強化學習提出了新的泛化挑戰。它是一個多代理問題,一個代理與它的對手競爭;它需要泛化能力,因為它有不同的目標需要控制和不同的對手需要競爭。我們描述了《王者榮耀》領域的觀察、行動和獎勵規範,並提供了一個開源的基於Python的介面,用於與遊戲引擎進行通訊。我們在《王者榮耀》競技場中提供了20個目標英雄的各種任務,並介紹了在可行的計算資源下基於RL的方法的初步基線結果。最後,我們展示了《王者榮耀》競技場所帶來的泛化挑戰以及對挑戰的可能補救措施。所有的軟體,包括環境類,都可在 https://github.com/tencent-ailab/hok_env 獲取,文件可在 https://aiarena.tencent.com/hok/doc/ 檢視。

⚡ 論文:PPT: token-Pruned Pose Transformer for monocular and multi-view human pose estimation

論文時間:16 Sep 2022

領域任務:Pose Estimation,姿勢預估

論文地址:https://arxiv.org/abs/2209.08194

程式碼實現:https://github.com/howiema/ppt

論文作者:Haoyu Ma, Zhe Wang, Yifei Chen, Deying Kong, Liangjian Chen, Xingwei Liu, Xiangyi Yan, Hao Tang, Xiaohui Xie

論文簡介:In this paper, we propose the token-Pruned Pose Transformer (PPT) for 2D human pose estimation, which can locate a rough human mask and performs self-attention only within selected tokens./在本文中,我們提出了用於二維人類姿勢估計的標記-跑動姿勢Transformer(PPT),它可以定位一個粗糙的人類面具,並且只在選定的標記內執行自我關注。

論文摘要:最近,視覺變換器及其變體在單目和多目人類姿態估計中都發揮了越來越重要的作用。考慮到影象斑塊作為標記,變換器可以在整個影象或來自其他檢視的影象之間建立全域性依賴模型。然而,全域性關注在計算上是昂貴的。因此,很難將這些基於變換器的方法擴充套件到高解析度的特徵和許多檢視。在本文中,我們提出了用於二維人體姿勢估計的標記-奔跑姿勢Transformer(PPT),它可以定位一個粗略的人體面具,並且只在選定的標記內執行自我關注。此外,我們將我們的PPT擴充套件到多視角人體姿勢估計。在PPT的基礎上,我們提出了一個新的跨視角融合策略,稱為人類區域融合,它將所有人類的前景畫素視為相應的候選者。在COCO和MPII上的實驗結果表明,我們的PPT可以與以前的姿勢變換器方法的精度相媲美,同時減少計算量。此外,在Human 3.6M和Ski-Pose上的實驗表明,我們的多檢視PPT可以有效地融合來自多個檢視的線索,並取得最先進的新結果。

我們是 ShowMeAI,致力於傳播AI優質內容,分享行業解決方案,用知識加速每一次技術成長!

◉ 點選 日報合輯,在公眾號內訂閱話題 #ShowMeAI資訊日報,可接收每日最新推送。

◉ 點選 電子月刊,快速瀏覽月度合輯。

「其他文章」