童心未泯的 YOLO 之父,小馬哥 Joseph Redmon 笑傲 CV 江湖記

語言: CN / TW / HK

↑ 點擊 藍字  關注極市平台

作者丨二玖

編輯丨極市平台

在這個六一兒童節,我們將為大家介紹一位這樣的計算機視覺大牛:留着大鬍子卻懷揣着少女心,技術超神卻依然童心未泯——他就是YOLO之父,一位或許現在正在過着兒童節的計算機視覺開發者。

一年了,大家還記得那位退隱CV江湖的YOLO之父“小馬哥”嗎?

可能搞目標檢測的,或者説搞計算機視覺的,都知道一個叫 YOLO 的系列工作。YOLO是You Only Look Once的縮寫,即“你只需要看一次”。

YOLO可以説是計算機視覺領域最知名的目標檢測算法之一,它是用來找出圖像中人們感興趣的目標,並確定其大小、位置和類別,很多日常生活中的常見任務都離不開這種算法。

作為開創one-stage檢測的先河,縱然YOLO算法在學術界可能不如RCNN等系列算法那樣引人注目,但是在工業界,YOLO的名頭可是響噹噹的。畢竟, 每次YOLO更新,都會迎來一大波公司更新自家算法的熱潮

在這個六一兒童節,我們將帶領大家走進YOLO的作者: Joseph Redmon ,一位經常讓自己家的狗和自己一起出鏡,可能你去美國滑雪的話還能偶遇的“看不出是大神的大神”。 人是真的低調,但技術也是真的硬核

圖注:Joseph Redmon

明明長了絡腮鬍,確有一顆少女心

關於Joseph Redmon成為大神之前的那些事兒,我們可以從他精心設計的小馬簡歷重窺見一二:

圖注:  “ 馬精靈 ”Joseph Redmon的簡歷

Joseph Redmon在簡歷中稱呼自己為“小馬”。小馬哥畢業於一所美國非常著名的文理學院—— 明德學院 (Middlebury College),文理學院是指奉行博雅教育、以本科教育為主、規模小而精的大學,而明德學院在全美排名第五,是一所在本科教育上絲毫不遜色於常青藤聯盟的高等學府。

小馬哥在明德學院主修計算機科學,並輔修數學。也是在明德學院求學期間,他對計算機科學和數學產生了強烈的好奇與持續的熱愛。 他以最優異的成績畢業,還獲得了系裏的優秀學術獎。 同時,小馬哥也十分喜歡傳授知識,因此,他在明德學院擔任了兩年助教。

期間,小馬哥先是前往美國國家標準與技術研究院,他在那兒開發了一個分析熱中子三軸光譜數據的在線工具,甚至還有自己的核反應堆。隨後他前往IBM實習,與當時IBM的阿爾瑪登研究中心(Almaden Research Center)合作,開發與網上購物相關的技術。小馬哥還在當時的一家初創公司ZeroCater工作過,他在那兒負責了一些比較重要的項目。 但也是在ZeroCater,這匹小馬明白每日“耕作”並不適合他。於是他迅速的甩掉鑽頭和韁繩,飛奔回了阿拉斯加。

畢業後,不走尋常路的小馬哥在阿拉斯加州的Unalaska擔任了一名 電台DJ ,但不忘老本行,小馬哥作為自由網絡開發者,以及資深愛馬人士,他還給阿拉斯加灌木叢裏所有漂亮的小馬製作了一個高質量網站。

圖注:  Joseph Redmon的小馬

結束這些工作之後,小馬哥前往華盛頓大學攻讀博士學位,他的大神之路,也就正式開始了。

一路開掛的YOLO系列

2013年開啟華盛頓大學求學生涯,Joseph Redmon 跟隨 Allen School 教授 Ali Farhadi 從事計算機視覺研究。

在2016年,他提出了他 至今以來最有名的個人項目:《You Only Look Once: Unified, Real-Time Object Detection》 。這篇論文也發表在CVPR2016上,並獲得了 CVPR 2016的“OpenCV People's Choice Award”獎項——也就 CVPR最佳人氣獎 由此可見大家對於YOLO這一算法的追捧與喜愛。

小馬哥也就是從這裏開始,如脱韁的野馬,一發不可收拾。 每年推出一個YOLO新版本,一代比一代強。

在當時,主流的目標檢測算法是基於Region Proposal的R-CNN系算法,這類算法在包含實例分割、目標檢測等多個計算機視覺任務上都表現優異。但它們通常存在一個問題,就是速度較慢。對比之下,YOLO讓當時的技術實現了一個十分重要的突破: one-stage ,即“你只需要瀏覽一次(You Only Look Once)”,就能一步到位地完成目標定位和目標識別。

R-CNN系算法是two-stage的,因而需要將目標檢測分解為兩個問題,即分類和迴歸分別求解,而YOLO則將目標檢測作為一個迴歸問題進行求解。由於 YOLO 只使用單個網絡,因此可以在檢測性能上直接對其進行端到端的優化,這使得基礎的YOLO模型實時處理圖像的速度能達到每秒45幀。

2017年,Joseph Redmon與導師合著,發表了論文《YOLO9000: Better, Faster, Stronger》,也就是YOLOv2。這篇論文獲得了 CVPR 2017 最佳論文榮譽提名獎(Best Paper Honorable Mention) ,與最佳論文僅一步之遙。

要知道,CVPR是計算機視覺領域最受關注的頂會之一。出道僅4年,小馬哥的工作就被提名了最佳論文,這就相當於一位初出茅廬的青年導演被提名奧斯卡的最佳影片一樣啊。

相對於第一個版本,YOLOv2在繼續保持處理速度的基礎上,實現了更準確的預測、更快的速度以及更多的識別對象這三大改進,YOLOv2能夠檢測9000種不同對象,因此也將其稱之為YOLO9000。

如果説前兩篇還只是正常發揮,那麼在2018年提出的YOLOv3,絕對能算的上是驚豔之作。 這篇論文,從改進思路到行文風格,一看就知道它是出自Joseph Redmon之筆。

雖然Joseph Redmon在論文開篇説:“有時,你一整年都在敷衍了事卻不自知。比如今年我就沒做什麼研究,而是在推特上揮霍光陰,置 GANs 於不顧。但憑着上年餘留的一點動力,我對 YOLO 做了一些成功的升級。實話説,沒什麼特別有趣的東西,只不過是些小修小補。同時我對其他人的研究也做出了少許貢獻。”

大家看了是不是想説:既然沒做啥,你説這麼多幹嘛?如果這樣想,你就too young too naive啦,大神只是謙虛一下而已。這次YOLOv3的提出,解決了一個非常重要的問題—— 針對YOLO在小目標檢測上的性能不夠強大做出了改進 。此外,這一新版本不僅保持了 YOLO 的一貫的速度優勢,同時提升了模型精度,針對小目標檢測以及重疊遮擋目標的識別短板進行了補齊,一躍成為了當時速度和精度均衡性能最強的目標檢測網絡。

圖示:充滿了“Joseph Redmon”風格的性能圖示。座標軸內的曲線圖出現於2017年的《Focal Loss for Dense Object Detection》這篇論文,Focal Loss的原圖中雖然性能表格中包含了YOLO,但並未繪製其所在位置。於是小馬哥就直接將這張圖用在了他YOLOv3的論文中,還把YOLO畫在了第二象限。

2018年,憑藉在“創造更快、更好、更有用的計算機視覺應用工具”方面的貢獻, Joseph Redmon還獲得了2018年度谷歌博士獎學金,當年全球僅有的39名獲獎者。 小馬哥的技術,又一次得到了學界的認可。

插曲: 此前,小馬哥曾在艾倫人工智能研究所實習,這家研究所孵化出了初創公司 XNOR.ai,創建者之一是他的導師Ali Farhadi,也是YOLO的合著者。小馬哥參與了XNOR-Net 的開發工作。Xnor.ai作為為數不多的專注於在邊緣提供AI功能的創業公司,2019年被評選為美國50家最有前途的人工智能公司之一。2020年1月,XNOR.ai被蘋果收購,交易金額或高達 2 億美元。因此, 小馬哥已經成功地實現從技術YOLO(you only look once)到人生YOLO(you only live once)的轉變

小馬哥的隱退

2017年,Joseph Redmon在TED進行了演講,分享了自己在計算機視覺和目標檢測領域的最新技術。

在演講結束時,他説:“我真的非常激動,因為我們在底層計算機視覺問題上提出了一個強大的解決方案,而任何人都可以使用它來做些什麼。剩餘的部分就要看在座的各位,以及世界上所有能夠使用這個它的人。而我也已經迫不及待地想要看到大家究竟會用這一技術,進行什麼樣的創造了。”

視頻: Joseph Redmon的TED演講

在YOLOv3的論文末尾,他又再一次強調了他對自己的技術在未來的應用願景:“也許更值得思考的問題是:‘當我們有了檢測器,我們將拿它們來做什麼?’這項技術已經被很好的掌握,但它真正但用途不應該是用來收集大家的個人信息並將其出售等等。大多數研究計算機視覺的人都只是做點令人愉快的、好的事情,比如計算國家公園裏斑馬的數量,或者追蹤溜進他們院子時的貓。但是計算機視覺已經被用於令人質疑的領域,因此, 作為研究人員,我們有責任思考我們的工作對這個世界可能造成的危害,並思考如何減輕這種危害,因為我們非常珍惜這個世界。

而就在大家都翹首以盼YOLOv4的時候,Joseph Redmon卻在2020年2月突然在推特上發佈聲明——他説,出於道德上的考慮,他決定停止一切有關計算機視覺的研究。

這一消息在計算機視覺學術界和工業界都引起了軒然大波,它的背景牽涉到另一件人工智能領域的重要事件:就在Joseph Redmon發佈聲明的前幾天,人工智能頂會 NeurIPS 2020 的發佈了全新的論文接收標準。這一標準包括一個重要的改動: 考慮到避免 AI 研究被濫用,或者因失敗帶來嚴重後果,NeurIPS 要求研究者在投稿時對自己論文的長遠影響進行介紹

NeurIPS的新標準和Joseph Redmon的退出引發了學術界激烈的討論。人們開始思考 “研究工作對社會有潛在的負面影響,是否應該停止研究?”

一些學者認為,我們並不需要考慮新研究對社會的影響。雖然在學習階段,科學研究是中立的是一種普適性觀點,但如果真的認真考慮其廣泛影響,那如人臉識別這類的技術工作都不應該被髮表。新技術的提出即是一種社會價值的創造,而如何防範它被應用於不正當之處是技術提出後需要考慮的,況且,如果要真正完全地考慮新技術的未來影響,即使我們想,可能我們也並不能考慮充分。

而以Joseph Redmon為代表的另一方學者則認為,他提到:“我已經停止了計算機視覺研究,因為我看到了自己工作造成的影響。我熱愛自己的作品,但我無法忽視它在軍事領域的應用以及給個人隱私帶來的風險。”

他的考慮不無道理。縱然考慮一項新研究對於社會的全部影響是十分困難甚至不切實際,但在當下鼓勵開源的技術圈,拿到作者的源碼,然後私自將其用於其他不當用途的情況的確也不在少數。本是抱着推動技術發展和人類進步的源碼作者看到自己的工作成果被濫用並導致不良影響的情況,無疑是十分痛心的。

但正如一位網友所評論的:

部分學者停止技術研究,並不能從根本上解決技術濫用的問題。歷史也不會因為一個人的停留而停止發展。

YOLO大旗沒有倒下

在Joseph Redmon退出CV學術界後,他的技術卻並未止步。2個月後,便有人接過了他的大旗。2020年4月,另一位曾經參與YOLO項目維護的大神Alexey Bochkovskiy,在arXiv上提交了YOLO v4,而且這篇論文也得到了Joseph Redmon的肯定——他將其拉入了他建立的YOLO項目主線。緊接着6月,YOLOv5也發佈了,它的模型與比 YOLOv4 相比小近 90%,而在準確度指標上與 YOLOv4 相當。

圖示:YOLOv4和YOLOv5

由此可見,雖然Joseph Redmon的退出是學術界的一大憾事,但 YOLO這個強大的目標檢測算法研究並未因此偃旗息鼓,它依然在多個領域發揮這其強大的技術創造力。

最後,Joseph Redmon曾在YOLOv3文中提到,自己終於戒掉推特了。但是就目前他的推特賬號的更新頻率來看,似乎並沒有成功,而且他的動態還是一直圍繞着計算機視覺領域。這不禁讓人浮想聯翩, 不知道這位不按常理出牌的大神,會不會又迴歸CV江湖,祭出大招呢?

-END-

如果覺得有用,就請分享到朋 友圈吧!

△點擊卡片關注極市平台,獲取 最新CV乾貨

公眾號後台回覆“ 83 ”獲取 朱思語: 基於深度學習的視覺稠密建圖和定位 播鏈接~

極市乾貨

YOLO教程: 一文讀懂YOLO V5 與 YOLO V4 大盤點|YOLO 系目標檢測算法總覽 全面解析YOLO V4網絡結構

實操教程: PyTorch vs LibTorch:網絡推理速度誰更快? 只用兩行代碼,我讓Transformer推理加速了50倍 PyTorch AutoGrad C++層實現

算法技巧(trick): 深度學習訓練tricks總結(有實驗支撐) 深度強化學習調參Tricks合集 長尾識別中的Tricks彙總(AAAI2021

最新CV競賽: 2021 高通人工智能應用創新大賽 CVPR 2021 | Short-video Face Parsing Challenge 3D人體目標檢測與行為分析競賽開賽,獎池7萬+,數據集達16671張!

# 極市原創作者激勵計劃  #

極市平台深耕CV開發者領域近5年,擁有一大批優質CV開發者受眾,覆蓋微信、知乎、B站、微博等多個渠道。通過極市平台,您的文章的觀點和看法能分享至更多CV開發者,既能體現文章的價值,又能讓文章在視覺圈內得到更大程度上的推廣。

對於優質內容開發者,極市可推薦至國內優秀出版社合作出書,同時為開發者引薦行業大牛,組織個人分享交流會,推薦名企就業機會,打造個人品牌 IP。

投稿須知:

1. 作者保證投稿作品為自己的 原創作品。

2. 極市平台尊重原作者署名權,並支付相應稿費。文章發佈後,版權仍屬於原作者。

3.原作者可以將文章發在其他平台的個人賬號,但需要在文章頂部標明首發於極市平台

投稿方式:

添加小編微信Fengcall(微信號:fengcall19),備註: 姓名-投稿

△長按添加極市平台小編

覺得有用麻煩給個在看啦~