特斯拉大裁員,蘋果贏麻了?維基百科:我的每一條引用都AI過;面向工業落地的目標檢測框架;我的『粗野主義』作業系統;MLOps概覽 | ShowMeAI資訊日報

語言: CN / TW / HK

ShowMeAI日報系列全新升級!覆蓋AI人工智慧 工具&框架 | 專案&程式碼 | 博文&分享 | 資料&資源 | 研究&論文 等方向。點選檢視 歷史文章列表,在公眾號內訂閱話題 #ShowMeAI資訊日報,可接收每日最新推送。點選 專題合輯&電子月刊 快速瀏覽各專題全集。

🚗 特斯拉裁員,競爭對手樂開花,蘋果想造車的祕密藏不住了!

6月初,埃隆·馬斯克(Elon Musk)一封郵件決定裁員10%,隨後包括 Autopilot 團隊在內的多個部門或職位被裁撤。Punks & Pinstripes 使用 LinkedIn Sales Navigator 資料完成的研究表明——過去90天內,457名特斯拉前員工,紛紛投向了競爭對手和科技公司的懷抱。

作為 Tesla 在電動汽車領域的直接競爭者,Rivian Automotive(56名)和 Lucid Motors (34名) 排在榜單絕對前列,亞馬遜支援的自動駕駛汽車初創公司 Zoox (9名) 也佔據了一席之地。科技巨頭蘋果 (51名)、亞馬遜 (51名)、谷歌 (29名)、Meta (25名) 和 微軟 (23名) 共招聘179名,『正名』Tesla 確實是一家科技公司,並非傳統意義上的汽車製造商。而蘋果『Titan』專案的造車企圖,也由此顯露冰山一角。此外,榜單中 Redwood Materials 是特斯拉聯合創始人JB Straubel 領導的電池回收公司,Space X 則是由馬斯克創辦的民營航天製造商和太空運輸公司。

工具&框架

🚧『Side』Meta 開發的 AI 輔助編輯器,使維基百科的引用條目更準確

https://github.com/facebookresearch/side

維基百科要求有爭議的陳述等必須附上引用源(citation),但是每月新增的17000多篇文章,給志願者的檢查工作帶來了巨大挑戰。Meta AI 團隊開發了第一個能夠一次自動驗證數十萬次引用的模型,將最有可能存在缺陷的引用交由人工判斷,避免了在數千條正確引用上耗費時間。

Side 平臺可以系統地發掘維基百科的引用問題,進而快速修復引用,甚至大規模地更正文章內容,以確保維基百科條目的準確度。試了一下 Side 平臺,提交時特別有成就感!

🚧『COCR』手繪化學結構OCR識別

https://github.com/Xuguodong1999/COCR

COCR(Optical Character Recognition for Chemical Structures,化學結構的光學字元識別) 源自於作者 2021 年的本科畢業論文,將OCSR(光學化學結構識別)的能力引入到手寫的案例中,從而實現手寫的化學結構圖片轉換為對應的分子結構圖。

🚧『AIRDet』面向工業落地的目標檢測框架

https://github.com/tinyvision/AIRDet

藉助學術界的突破和工業落地經驗,AIRDet-s 能夠對複雜多變的工業場景提供開箱即用的目標檢測能力。AIRDet-s 不僅在精度上超越了目前的一眾 YOLO(YOLOX-s、YOLOv6-s、YOLOe-s),保持著極高的推理速度,還提供了高效的訓練策略以及便捷易用的部署工具,能夠快速解決工業落地中的實際問題。下圖是在 COCO2017 驗證集上的結果。

🚧『rtui』用於 ROS 的 TUI(Terminal User Interface,終端使用者介面)工具

https://github.com/eduidl/rtui

🚧『BRUTAL』作業系統

https://github.com/brutal-org/brutal

受到『粗野主義(Brutalist)』的啟發,作者將上世紀70年代的 UNIX 與現代工程技術相結合,開發了 BRUTAL 作業系統。充滿現代主義意味的圖形、對現代C語言的大膽使用等,構成了 BRUTAL 作業系統的獨特標誌。當前更新到了 Milestone5,在 Roadmap.md 頁面可以看到團隊的持續努力。

博文&分享

👍『Machine Learning Operations (MLOps): Overview, Definition, and Architecture』MLOps概覽

https://arxiv.org/abs/2205.02302

所有工業機器學習專案的最終目標,都是開發機器學習產品並迅速投產,但這一過程面臨著巨大的挑戰。Machine Learning Operations(MLOps)有望為這一過程提供解決方案。論文作者通過文獻回顧、工具回顧和專家訪談等研究方法,提供了 MLOps 的定義,強調了該領域面臨的挑戰,併為機器學習產品的研發人員提供機器學習產品自動化操作所需的技術指南。

資料&資源

🔥『Physical Concepts Dataset』用於學習和評估受發展心理學啟發的直覺物理學的資料集

https://github.com/deepmind/physical_concepts

研究&論文

公眾號後臺回覆關鍵字 日報,免費獲取整理好的論文合輯。

科研進展

  • 2022.07.10 『機器人』 2DPASS: 2D Priors Assisted Semantic Segmentation on LiDAR Point Clouds
  • 2022.07.11 『影象識別』 Dual Vision Transformer
  • 2022.07.08 『深度學習』 k-means Mask Transformer
  • 2022.07.10 『對抗學習』 CCPL: Contrastive Coherence Preserving Loss for Versatile Style Transfer

⚡ 論文:2DPASS: 2D Priors Assisted Semantic Segmentation on LiDAR Point Clouds

論文標題:2DPASS: 2D Priors Assisted Semantic Segmentation on LiDAR Point Clouds

論文時間:10 Jul 2022

所屬領域機器人

對應任務:3D Semantic Segmentation,Autonomous Driving,Knowledge Distillation,LIDAR Semantic Segmentation,Representation Learning,Semantic Segmentation,三維語義分割,自主駕駛,知識蒸餾,鐳射雷達語義分割,表徵學習,語義分割

論文地址:https://arxiv.org/abs/2207.04397

程式碼實現:https://github.com/yanx27/2dpass

論文作者:Xu Yan, Jiantao Gao, Chaoda Zheng, Chao Zheng, Ruimao Zhang, Shenghui Cui, Zhen Li

論文簡介:As camera and LiDAR sensors capture complementary information used in autonomous driving, great efforts have been made to develop semantic segmentation algorithms through multi-modality data fusion./關於攝像頭和LiDAR感測器捕捉到了用於自動駕駛的互補資訊,過往研究者已經做出了巨大努力,通過多模態資料融合來開發語義分割演算法。

論文摘要:關於相機和LiDAR感測器捕捉了自動駕駛中使用的互補資訊,過往研究者已經做出了巨大努力,通過多模態資料融合來開發語義分割演算法。然而,基於融合的方法需要成對的資料,即LiDAR點雲和具有嚴格的點對畫素對映的相機影象,作為訓練和推理的輸入,這嚴重阻礙了它們在實際場景中的應用。因此,在這項工作中,我們提出了2D Priors Assisted Semantic Segmentation(2DPASS),這是一個通用的訓練方案,通過充分利用具有豐富外觀的二維影象來促進點雲上的表示學習。在實踐中,通過利用輔助模態融合和多尺度融合到單一知識提煉(MSFSKD),2DPASS從多模態資料中獲得了更豐富的語義和結構資訊,然後線上提煉到純三維網路。因此,在配備了2DPASS後,我們的基線在只有點雲輸入的情況下顯示出了顯著的改進。具體來說,它在兩個大規模的基準測試(即SemanticKITTI和NuScenes)中達到了最先進的水平,包括在SemanticKITTI的單次和多次掃描比賽中取得了第一名的成績。

⚡ 論文:Dual Vision Transformer

論文標題:Dual Vision Transformer

論文時間:11 Jul 2022

所屬領域:計算機視覺

對應任務影象識別

論文地址:https://arxiv.org/abs/2207.04976

程式碼實現:https://github.com/yehli/imagenetmodel

論文作者:Ting Yao, Yehao Li, Yingwei Pan, Yu Wang, Xiao-Ping Zhang, Tao Mei

論文簡介:Dual-ViT is henceforth able to reduce the computational complexity without compromising much accuracy./因此,Dual-ViT能夠在不影響精度的情況下降低計算的複雜性。

論文摘要:以前的工作已經提出了幾種策略來減少自我注意機制的計算成本。其中許多工作考慮將自注意力分解為區域和區域性特徵提取步驟,每個步驟都會產生更小的計算複雜性。然而,區域資訊的實現通常是以下采樣所造成的不良資訊損失為代價的。在本文中,我們提出了一個旨在緩解成本問題的新型Transformer架構,名為雙視覺Transformer(Dual-ViT)。這個新的架構包含了一個關鍵的語義通路,可以更有效地將標記向量壓縮成全域性語義,並降低了複雜度。然後,這種壓縮的全域性語義作為有用的先驗資訊,通過另一個構建的畫素路徑,學習更精細的畫素級細節。然後,語義途徑和畫素途徑被整合在一起,並被聯合訓練,通過這兩條途徑平行地傳播增強的自注意資訊。因此,Dual-ViT能夠在不影響準確性的情況下降低計算的複雜性。我們通過經驗證明,Dual-ViT在降低訓練複雜度的同時提供了比SOTA Transformer架構更高的準確性。原始碼可在 https://github.com/YehLi/ImageNetModel 獲取。

⚡ 論文:k-means Mask Transformer

論文標題:k-means Mask Transformer

論文時間:8 Jul 2022

所屬領域深度學習

對應任務:Natural Language Processing,object-detection,Object Detection,Panoptic Segmentation,自然語言處理,物體檢測,物體檢測,全景分割

論文地址:https://arxiv.org/abs/2207.04044

程式碼實現:https://github.com/google-research/deeplab2

論文作者:Qihang Yu, Huiyu Wang, Siyuan Qiao, Maxwell Collins, Yukun Zhu, Hatwig Adam, Alan Yuille, Liang-Chieh Chen

論文簡介:However, we observe that most existing transformer-based vision models simply borrow the idea from NLP, neglecting the crucial difference between languages and images, particularly the extremely large sequence length of spatially flattened pixel features./然而,我們觀察到,大多數現有的基於Transformer的視覺模型只是簡單地借用了NLP的想法,忽略了語言和影象之間的關鍵區別,尤其是空間扁平化畫素特徵的極長序列。

論文摘要:transformers在視覺任務中的興起,不僅推進了網路骨幹設計,也為實現端到端的影象識別(如物體檢測和全景分割)開啟了嶄新的一頁。起源於自然語言處理(NLP),由自注意和交叉注意組成的Transformer架構可以有效地學習序列中元素之間的長程互動。然而,我們觀察到,大多數現有的基於Transformer的視覺模型只是簡單地借用了NLP的想法,忽略了語言和影象之間的關鍵區別,特別是空間扁平化的畫素特徵的極大序列長度。這隨後阻礙了畫素特徵和物體查詢之間交叉注意的學習。在本文中,我們重新思考了畫素和物體查詢之間的關係,並建議將交叉注意力的學習重新表述為一個聚類過程。受傳統的k-means聚類演算法的啟發,我們開發了一種用於分割任務的k-means Mask Xformer(kMaX-DeepLab),它不僅改進了最先進的演算法,而且還享有簡單而優雅的設計。結果,我們的kMaX-DeepLab在COCO估值集上取得了58.0%的PQ,在Cityscapes估值集上取得了68.4%的PQ、44.0%的AP和83.5%的mIoU的新的最先進的效能,而無需測試時間的增加或外部資料集。我們希望我們的工作能夠為設計為視覺任務量身定做的變換器提供一些啟示。程式碼和模型可在 https://github.com/google-research/deeplab2 獲取。

⚡ 論文:CCPL: Contrastive Coherence Preserving Loss for Versatile Style Transfer

論文標題:CCPL: Contrastive Coherence Preserving Loss for Versatile Style Transfer

論文時間:11 Jul 2022

所屬領域對抗學習

對應任務:Image-to-Image Translation,Style Transfer,Video Style Transfer,影象到影象的翻譯,風格轉換,影片風格轉換

論文地址:https://arxiv.org/abs/2207.04808

程式碼實現:https://github.com/JarrentWu1031/CCPL

論文作者:Zijie Wu, Zhen Zhu, Junping Du, Xiang Bai

論文簡介:CCPL can preserve the coherence of the content source during style transfer without degrading stylization./CCPL可以在風格轉移過程中保持內容源的一致性而不降低風格化程度。

論文摘要:在本文中,我們旨在設計一種通用的風格轉移方法,能夠聯合進行藝術、照片寫實和影片風格的轉移,在訓練期間不需要看到影片。以前的單幀方法假定對整個影象有很強的約束,以保持時間上的一致性,這在很多情況下可能會失敗。相反,我們做了一個溫和而合理的假設,即全域性的不一致被區域性的不一致所支配,並設計了一個通用的對比性一致性保護損失(CCPL),應用於區域性斑塊。CCPL可以在風格轉移過程中保持內容源的一致性,而不會降低風格化程度。此外,它還擁有一個鄰居調節機制,從而大大減少了區域性失真和相當大的視覺質量改善。除了在多功能風格轉移方面的優異表現,它還可以很容易地擴充套件到其他任務,如影象到影象的翻譯。此外,為了更好地融合內容和風格特徵,我們提出了簡單協方差變換(SCT),以有效調整內容特徵和風格特徵的二階統計。實驗表明,當與CCPL一起使用時,所產生的模型對於多功能的風格轉換是有效的。

我們是 ShowMeAI,致力於傳播AI優質內容,分享行業解決方案,用知識加速每一次技術成長!點選檢視 歷史文章列表,在公眾號內訂閱話題 #ShowMeAI資訊日報,可接收每日最新推送。點選 專題合輯&電子月刊 快速瀏覽各專題全集。

「其他文章」