Win10截圖文字識別工具;Rust超全學習指南;助理教授/博士生存指南;Stable Diffussion的Mac本地部署版 | ShowMeAI資訊日報

語言: CN / TW / HK

我報名參加金石計劃1期挑戰——瓜分10萬獎池,這是我的第21篇文章,點選檢視活動詳情

👀日報合輯 | 📆電子月刊 | 🔔公眾號下載資料 | 🍩@韓信子

工具&框架

🚧 『Nitric』用於快速開發雲原生 serverless 應用的框架

https://github.com/nitrictech/nitric

https://nitric.io/

Nitric 是一個用於快速開發雲原生和無伺服器應用程式的框架。根據你的應用程式所需的資源智慧定義,然後為基於無伺服器功能的API、事件訂閱者和計劃作業編寫程式碼。基於 Nitric 構建的應用程式可以方便部署到 AWS、Azure 或谷歌雲。

🚧 『sio4onnx』ONNX維度變更工具

https://github.com/PINTO0309/sio4onnx

sio4onnx是一個簡單的工具,可以用於對ONNX的輸入和輸出維度進行變更

🚧 『Text-Grab』Win10的截圖OCR文字識別工具

https://github.com/TheJoeFin/Text-Grab

https://apps.microsoft.com/store/detail/text-grab/9MZNKQJ7SL0B?hl=en-us&gl=us

Text-Grab是一個Windows系統上的小巧光學字元識別(OCR)工具,它使所有視覺可見的文字(包括影象、影片、應用程式上的文字)都可以被複制。Text-Grab會通過文字抓取 "工具 "拍攝螢幕,將影象傳給OCR引擎,然後將文字放到剪貼簿中,接下來你可以輕鬆在任何地方貼上使用。

OCR的過程是由 Windows API 在本地完成的,因此它沒有複雜的使用者介面,也不需要一個持續執行的後臺程序。

🚧 『estela』基於Kubernetes的彈性網頁爬蟲叢集

https://github.com/bitmakerla/estela

https://estela.bitmaker.la/docs/

estela 是一個執行在 Kubernetes 上的彈性網路爬蟲叢集。它通過 REST API 和 Web 介面提供了部署、執行和擴充套件網路爬蟲的機制。

🚧 『Stable Diffussion Buddy』M1 Mac的Stable Diffussion本地部署版

https://github.com/breadthe/sd-buddy

Stable Diffussion Buddy是Stable Diffusion的M1 Mac版本的配套桌面應用程式。它提供非常簡單的方式生成影象,讓你專注於編寫提示資訊,而不用關注命令行復雜命令。

博文&分享

👍 『How to learn modern Rust』Rust 學習指南

https://github.com/joaocarvalhoopen/How_to_learn_modern_Rust

Rust 是一種強大的程式語言,速度快,可編譯,將安全性的新概念帶入了程式設計,被 StackOverFlow 使用者連續五年評為最受歡迎的語言。這是一個rust學習的詳細指南,包含了 Rust 學習的各種主題與相關資料。

👍 『Track Assistant Professors and PhD students』助理教授/博士生生存指南

https://github.com/JunweiLiang/awesome_lists

作為一個剛準備入職的大學助理教授,以及畢業不久的CS博士,作者趁現在開始收集一些對於年輕助理教授以及博士生都有用的資源和連結,包括專案來源、計算資源價效比比較、經驗等。列表包含8個部分,使用中英雙語,並持續更新中。

  • Funding / Grant Resources(國內外教授可申請的資金,以及博士生獎學金)
  • Social Media / Academic Profiles(會推薦研究工作的公眾號和自媒體)
  • Computational Resources(國內雲GPU計算資源的價格以及整機購買的一些對比)
  • Workshops and Competitions (頂會與比賽)
  • How to Run A Lab / Recruit Candidates(如何招生、如何管理實驗室)
  • General Advice from Others (其他資深教授、學者的建議)
  • Awesome Academic Pages (比較好的學術主頁)
  • Awesome Courses (優秀、開放的課程列表)

資料&資源

🔥 『Awesome Video Instance Segmentation Papers』影片例項分割相關文獻資源列表

https://github.com/QingZhong1996/Awesome-Video-Instance-Segmentation-Papers

🔥 『Collaborative Perception』協同感知相關文獻列表

https://github.com/Little-Podi/Collaborative_Perception

研究&論文

公眾號回覆關鍵字 日報,免費獲取整理好的論文合輯。

科研進展

  • 2022.08.20 『影象超解析度變換』 Diffusion Models: A Comprehensive Survey of Methods and Applications
  • 2022.08.20 『影象生成』 StoryDALL-E: Adapting Pretrained Text-to-Image Transformers for Story Continuation
  • 2022.08.20 『目標檢測』 CenterFormer: Center-based Transformer for 3D Object Detection

⚡ 論文:Diffusion Models: A Comprehensive Survey of Methods and Applications

論文時間:2 Sep 2022

領域任務:Image Super-Resolution, Text-to-Image Generation,影象超解析度變換文字到圖片轉換

論文地址:https://arxiv.org/abs/2209.00796

程式碼實現:https://github.com/YangLing0818/Diffusion-Models-Papers-Survey-Taxonomy

論文作者:Ling Yang, Zhilong Zhang, Shenda Hong, Runsheng Xu, Yue Zhao, Yingxia Shao, Wentao Zhang, Ming-Hsuan Yang, Bin Cui

論文簡介:Diffusion models are a class of deep generative models that have shown impressive results on various tasks with a solid theoretical foundation./擴散模型是一類深度生成模型,在各種任務上顯示出令人印象深刻的結果,並具有堅實的理論基礎。

論文摘要:擴散模型是一類深度生成模型,在各種任務上顯示出令人印象深刻的結果,具有堅實的理論基礎。儘管比起最先進的方法,擴散模型已經顯示出成功,但它往往需要昂貴的取樣程式和次優的似然估計。為了提高擴散模型在各方面的效能,人們做出了巨大的努力。在這篇文章中,我們對擴散模型的現有變體進行了全面的回顧。具體來說,我們提供了擴散模型的分類法,並將其分為三種類型:取樣-加速增強、似然-最大化增強和資料-概括增強。我們還介紹了其他生成模型(即變異自動編碼器、生成對抗網路、歸一化流、自迴歸模型和基於能量的模型)並討論了擴散模型和這些生成模型之間的聯絡。然後,我們回顧了擴散模型的應用,包括計算機視覺、自然語言處理、波形訊號處理、多模式建模、分子圖生成、時間序列建模和對抗性淨化。此外,我們提出了與生成模型的發展有關的新觀點。Github: https://github.com/YangLing0818/Diffusion-Models-Papers-Survey-Taxonomy

⚡ 論文:StoryDALL-E: Adapting Pretrained Text-to-Image Transformers for Story Continuation

論文時間:13 Sep 2022

領域任務:Image Generation, Story Continuation, 影象生成

論文地址:https://arxiv.org/abs/2209.06192

程式碼實現:https://github.com/adymaharana/storydalle

論文作者:Adyasha Maharana, Darryl Hannan, Mohit Bansal

論文簡介:Hence, we first propose the task of story continuation, where the generated visual story is conditioned on a source image, allowing for better generalization to narratives with new characters./因此,我們首先提出了故事延續的任務,即生成的視覺故事是以源影象為條件的,從而可以更好地推廣到有新人物的敘事中。

論文摘要:最近在文字到影象合成方面的進展導致了大型的預訓練transformers,它具有從給定文字生成視覺化的出色能力。然而,這些模型並不適合像故事視覺化這樣的專門任務,它要求代理產生一連串的影象,給定相應的標題序列,形成一個敘述。此外,我們發現,故事視覺化任務不能適應對新的敘述中未見過的情節和人物的概括。因此,我們首先提出了故事延續的任務,即生成的視覺故事以源影象為條件,允許更好地泛化到有新人物的敘述中。然後,我們增強或 "改裝 "預訓練的文字-影象合成模型,使其具有特定的任務模組,用於(a)連續的影象生成和(b)從初始幀中複製相關元素。然後,我們探索對預訓練模型進行全模型微調,以及基於提示的引數有效適應的調整。我們在兩個現有的資料集PororoSV和FlintstonesSV上評估了我們的方法StoryDALL-E,並介紹了一個新的資料集DiDeMoSV,該資料集是從一個影片字幕資料集中收集的。我們還開發了一個基於生成對抗網路(GAN)的故事延續模型StoryGANc,並與StoryDALL-E模型進行比較,以證明我們方法的優勢。我們表明,我們的逆向擬合方法在故事延續方面優於基於GAN的模型,並且有利於複製源影象中的視覺元素,從而提高了生成的視覺故事的連續性。最後,我們的分析表明,預訓練的transformers在理解包含多個角色的敘事時很困難。總的來說,我們的工作表明,預訓練的文字-影象合成模型可以適應複雜的、低資源的任務,如故事的延續。

⚡ 論文:CenterFormer: Center-based Transformer for 3D Object Detection

論文時間:12 Sep 2022

領域任務:3D Object Detection, object-detection,目標檢測

論文地址:https://arxiv.org/abs/2209.05588

程式碼實現:https://github.com/tusimple/centerformer

論文作者:Zixiang Zhou, Xiangchen Zhao, Yu Wang, Panqu Wang, Hassan Foroosh

論文簡介:It then uses the feature of the center candidate as the query embedding in the transformer./然後,它使用中心候選人的特徵作為變換器中的查詢嵌入。

論文摘要:基於查詢的transformer在許多影象領域的任務中顯示出巨大的潛力,但由於點雲資料的巨大尺寸,基於LiDAR的三維物體檢測很少被考慮。在本文中,我們提出了CenterFormer,一個用於三維物體檢測的基於中心的transformer網路。CenterFormer首先使用中心熱圖來選擇基於標準體素的點雲編碼器的中心候選人。然後,它使用中心候選者的特徵作為transformer中的查詢嵌入。為了進一步彙總來自多個框架的特徵,我們設計了一種通過交叉注意來融合特徵的方法。最後,加入迴歸頭來預測輸出中心特徵表示上的邊界盒。我們的設計降低了收斂難度和transformer結構的計算複雜性。結果顯示,與無錨物體檢測網路的強大基線相比,有明顯的改進。CenterFormer在Waymo開放資料集上的單一模型實現了最先進的效能,在驗證集上有73.7%的mAPH,在測試集上有75.6%的mAPH,大大超過了以前發表的所有基於CNN和transformer的方法。我們的程式碼可在 https://github.com/TuSimple/centerformer 上公開查閱。

我們是 ShowMeAI,致力於傳播AI優質內容,分享行業解決方案,用知識加速每一次技術成長!

◉ 點選 日報合輯,在公眾號內訂閱話題 #ShowMeAI資訊日報,可接收每日最新推送。

◉ 點選 電子月刊,快速瀏覽月度合輯。

「其他文章」