AI 收藏夾 Vol.003:AI 能聽懂陰陽怪氣嗎?

語言: CN / TW / HK

人工智慧是一門融合了電腦科學、圖形學、生物學、語言學等學科的前沿科學。隨著產學研深度融合創新,人工智慧從理論研究逐漸落地,各種應用與設想層出不窮。「AI 收藏夾」將會與大家分享一些 AI 領域實用有趣的文章和工具,與大家一起見證技術的創新與變革。


文章

0 1

AI 能聽懂陰陽怪氣嗎?


陰陽怪氣的本質是什麼?在上圖的案例中,文字和圖片有些矛盾。「我們竟然幸運地得到了一個座位」,然而照片上的觀眾席卻有很多空位;「看上去真好吃」,然而影象上的披薩看起來……🤔

在社交媒體上,使用者建立了大量多模式的資訊,文字、圖片、視訊分別代表了三種模式。北京資訊工程研究所和中科院合作研發了多模式檢測(MultiModal Detection)模型[1],該模型可以檢測文字模式內部和多個模式之間的不協調性,從而理解「諷刺」語義。經過 Twitter 資料集檢測,準確率可達到 86%。


0 2

AI 預測森林大火


許多森林大火都是因為電網產生火花引起的。Xcel Energy 等多家電力公司正在進行研究,使用無人機檢測森林中的電線設施,並使用 AI 演算法幫助預測火情高風險地區[2]。無人機上添加了熱感測器和鐳射雷達,鐳射雷達可以檢測出被植被覆蓋的電線,掃描線路周圍的區域並收集資料,而基於人工智慧的演算法可以識別涉及絕緣體、聯結器、阻尼器、電杆等不同結構的故障,並突出顯示需要人工維護的區域。

如上圖,該演算法可在不同照明條件下,從各個角度檢測出損壞的元件,並標記裝置的問題。


0 3

深度學習自動增強狗狗的動畫效果


動物的運動方式很複雜,有獨特的步態、特定的腳步模式。近期,都柏林三一學院和巴斯大學開發了一款基於深度神經網路的模型,自動增強四足動物(比如狗)的動畫質量,提高製作動畫視訊和電子遊戲的效率[3]。上圖藍色部分是初始動畫的幀,包含一些小錯誤,不足以反映真實情況下狗狗運動的微妙之處;綠色部分是真實捕捉的資料;紅色部分是在藍綠模型的基礎上,進行動畫增強後的輸出。


0 4

為細胞生物學家提供的影象分類器


植物的染色體大小和數量有很大差異,染色體的影象分類門檻較高,一般由專家人工完成。日本學者 Kiyotaka Nagaki 建立了一個 AI 影象分類器[4],使用染色體影象來訓練模型,能正確區分影象中的有絲分裂細胞,對組織切片中的細胞和不同的細胞分裂過程也能有效判斷。用人工智慧實現影象分類的自動化,不僅可以消除個體差異造成的波動,還可以節省許多寶貴的研究時間。


0 5

呃……我的 AI 怎麼有點傻?


AI 在某些方面比人類更快、更準、更可信,不過,AI 也有很多侷限性。比如,深度神經網路可以識別影象,但也可能非常「不健壯」,把一張校車照片翻轉後,深度神經網路就會自信地說這是一輛掃雪車😓;又比如,2019 年,美國的一個醫保演算法被指帶有種族偏見[5.1],人工智慧的嵌入本是為了更公正地判斷受保群體,結果它將很多更健康的白人患者納入醫保,而不是將病情更嚴重的黑人患者。

這篇文章[5.2]總結了 AI 可能的七大弱點,包括:不夠健壯、嵌入偏差、遺忘過去的訓練知識、可解釋性太弱、不確定性量化困難、缺乏常識、數學不好等等,值得一讀。


工具

0 1

Neural Dubber 神經網路配音器


🌟 功能:
讓 AI 根據配音指令碼,自動生成與畫面節奏同步的高質量配音

👀 亮點:
  • 根據視訊中的嘴脣運動來控制生成語音的語調

  • 可以分辨多個說話人,根據說話人的面部識別產生不同音色的語音。在上方的自動視訊配音(AVD)任務示意圖中,輸入的視訊內容是兩個人互相交談,灰色的面部圖片表示這個人當時沒有說話。


👉 地址:
  • 論文地址:https://arxiv.org/abs/2110.08243

  • 專案主頁:https://tsinghua-mars-lab.github.io/NeuralDubber/



0 2

畫圖工具 NN-SVG


🌟 功能:
繪製神經網路架構圖往往非常耗時,這個線上工具可以幫你節約大量時間。該工具可以繪製三種類型的圖:經典的全連線神經網路圖形(FCNN style)、以平鋪網路結構展示的 LeNet style、以三維塊形式展現的 AlexNet style。

👀 亮點:
  • 提供多種尺寸、顏色和佈局引數,可按照使用者的喜好來設計圖形

  • 可匯出 SVG 格式的影象,可直接用於學術論文或網頁


👉 地址:
  • GitHub地址:https://github.com/alexlenail/NN-SVG

  • 專案主頁:http://alexlenail.me/NN-SVG/index.html



0 3

科研輔助工具 ExplainaBoard


🌟 功能:
該怎麼想出一個好點子?如何設計更好的模型?這個平臺將模型分析和模型評價排行榜結合起來,能夠完成單系統診斷、系統對分析、資料集分析、細粒度錯誤分析、共有錯誤分析、可靠性分析、系統組合等任務,有效提升科研人員的學術體驗。

👀 亮點:
  • 該平臺可以幫助新手快速理解某個資料集的特性,定位模型的優缺點

  • 平臺釋出了 API,使用者可以提交自己的模型,並將它們部署到線上的 ExplainaBoard 中進行分析


👉 地址:
  • GitHub 地址:https://github.com/neulab/ExplainaBoard

  • 專案主頁:http://explainaboard.nlpedia.ai/




參考資料:

[1] AI 識別諷刺: https://aclanthology.org/2020.findings-emnlp.124.pdf
[2] AI 預測森林大火: https://spectrum.ieee.org/smokey-the-ai
[3] 自動增強狗狗動畫效果 : https://techxplore.com/news/2021-11-deep-method-automatically-dog-animations.html
[4] 細胞生物學的影象分類器: https://phys.org/news/2021-11-hat-ai-powered-image-cell-biologists.html
[5.1] 美國某醫保演算法被指帶有種族偏見: https://spectrum.ieee.org/racial-bias-found-in-algorithms-that-determine-health-care-for-millions-of-patients
[5.2] AI 可能的七大弱點: https://spectrum.ieee.org/ai-failures





Zilliz 以重新定義資料科學為願景,致力於打造一家全球領先的開源技術創新公司,並通過開源和雲原生解決方案為企業解鎖非結構化資料的隱藏價值。
Zilliz 構建了 Milvus 向量資料庫,以加快下一代資料平臺的發展。Milvus 資料庫是 LF AI & Data 基金會的畢業專案,能夠管理大量非結構化資料集,在新葯發現、推薦系統、聊天機器人等方面具有廣泛的應 用。
解鎖更多應用場景

本文分享自微信公眾號 - ZILLIZ(Zilliztech)。
如有侵權,請聯絡 [email protected] 刪除。
本文參與“OSC源創計劃”,歡迎正在閱讀的你也加入,一起分享。