還只會卷論文嗎?70頁報告解密頂級大廠如何玩轉AI技術(附完整下載連結)

語言: CN / TW / HK

機器之心深入調研網易,釋出70頁報告深度解密「別人家」的AI技術團隊如何駕馭技術、實現業務發展。開始抄作業吧!附下載連結,拿走不謝!

身處「增長要靠技術造」的後移動網際網路時代,AI技術團隊要如何走出發頂會論文容易,實現業務增長難的怪圈?

面對不斷迭代的AI技術,業務團隊又應如何挑選合作伙伴,與何種架構思路的AI技術團隊合作,才能行之有效地為自身插上AI的翅膀?

在充滿無限可能的未來,自帶顛覆屬性的AI技術又將在哪些方面帶來潛在的變革?哪些前沿AI技術值得關注佈局?

在聯合網易智企團隊共同開展了為期數月的調查研究後,機器之心交出了一份長達70頁的報告,作為對以上問題的迴應。

報告以網易智企為研究物件,通過透視網易智企AI技術團隊響應網際網路內容井噴式增長、線上實時互動剛需化以及自然語言處理技術正規化升級的技術方案與合作案例,為憧憬通過駕馭AI技術把握時代機遇的現代企業提供一套在實踐中行之有效的方法論。

報告的第一、二章圍繞「後移動網際網路時代」的新機遇展開,對市場機會與技術挑戰進行分析,通過對網易智企AI技術團隊首次公開的技術方案進行深入演算法層面的顯微鏡式解讀,剖析網易智企如何在工業實踐中通過駕馭AI技術,實現內容風控、音影片及自然語言對話三大技術的高效迭代。

報告的第三章對資料、模型、解決方案、演算法及部署這五個AI系統架構關鍵方面逐一展開,以網易智企AI技術團隊所採用的架構為線索,總結當前AI系統架構的創新發展與實踐方法論。

報告的第四章通過研究網易易盾、網易雲信和網易雲商與汽車之家、網易雲音樂及松果出行的三個真實技術合作案例,解答了企業如何通過採用高效、專業的AI解決方案抓住市場機遇,實現業務創新與發展突破的問題。

報告的最後兩個章節,從可信AI與Data Centric AI 兩方面探討當前人工智慧技術的變革趨勢,洞察業界在這兩方面的最新工作進展;從多模態、無監督與超大規模和工程自動化三個相對前沿的技術方向出發,彙總學界與業界的觀察與展望。

由於本文篇幅有限,以下僅結合報告第一、二章節的部分內容為讀者進行解讀。獲取完整報告可點選文末「閱讀原文」連結。

一、後網際網路時代,新機遇帶來新的技術挑戰

過去的十年是計算機視覺、自然語言及語音等領域取得了革命性進展的十年,同時也是全球範圍內移動網際網路、多媒體網際網路與各行各業深度融合,數字科技不斷為社會發展帶來驚喜的黃金十年。

在這十年裡,音影片通訊從網路社交深入日常辦公、生產及生活場景;點播、直播產業在全球範圍內崛起;對話機器人成為大眾服務行業標配。數字產業的創新發展,為各行各業開拓了新的業務場景,也為現代企業帶來了新的發展機遇。

隨著深度學習等新一代AI演算法在計算機視覺、自然語言及語音等領域取得突破進展,音影片、網路安全等已廣泛商用的數字技術又迎來了新的技術升級契機。

  • 網際網路內容井噴式增長,帶來對 內容風控技術 的挑戰與升級需求

  • 移動辦公、線上互動等實時音影片應用剛需化,帶來對 音影片技術 的挑戰與升級需求

  • 自然語言處理正規化革新,帶來對 客服機器人/自然語言對話技術 的挑戰與升級需求

二、AI加持把握機遇:駕馭不斷升級的技術需求

新機遇、新場景對內容風控、音影片及客服機器人等數字科技提出了新的需求,而AI技術的融合應用在駕馭不斷迭代的技術的過程上扮演著尤為關鍵的角色。

注:報告對以下方案進行了詳細的細節闡述,由於本文篇幅有限在此僅進行簡要介紹。感興趣的讀者可點選「閱讀原文」下載完整報告。

駕馭AI加持下的音訊技術

AI技術的發展推動了相關音訊演算法的不斷湧現。這些 AI 演算法雖然能夠在某些特定問題或實驗室資料上獲得優異表現,但往往存在高成本、無法適應真實應用場景、難以處理高維度聲音環境等工程化問題。這些問題往往導致音訊AI演算法在真實場景中的落地困難。

作為對AI演算法落地難問題的響應,網易雲信團隊的解決方案是將AI 與 DSP 進行結合、提升 AI 演算法在複雜場景的泛化能力、端側落地的低開銷與穩定性,以及研發實時音影片環境中的AI演算法。

  • 結合AI 與DSP 演算法

數字訊號處理 (DSP) 演算法是傳統音訊處理任務的基礎。AI 音訊演算法相比傳統 DSP 處理演算法,對處理複雜的真實場景存在一定短板,同時也帶來更大的開銷。

  • 提升複雜場景下的泛化能力

大部分 AI 演算法在音訊通話場景和針對目標聲音的訓練、驗證集上會有很好的效果,但在未見過的測試集上效果會有所回退。為了提升演算法在常見環境中的泛化能力,雲信團隊選擇了從實時音影片通訊(RTC)領域的資料集入手。在 AI 音訊通話演算法的研發過程中,雲信團隊針對場景、採集裝置,自行做了大量的資料採集和標註。通過開源資料、採購資料,對噪音進行實際錄製,沉澱了一個多場景噪聲集。

  • 低開銷端側落地與穩定性提升

針對端側效能提升,雲信團隊主要通過演算法模型剪枝、推理加速、推理指令集優化等操作實現。

  • 實時音影片環境中的AI演算法

針對 RTC 場景,網易雲信成功研發了輕量級、適合全平臺終端的 AI 音訊降噪演算法。作為國內行業中的首個 AI 音樂訓練檢測模型,網易雲信結合了自研的幀間頻域特徵和一個輕量級神經網路,訓練出了一個音樂檢測率高、魯棒性強、計算開銷小,適合在各個端側落地的 AI 模型。

2021年,雲信團隊的兩篇論文被第 50 屆國際噪聲控制工程會議INTER-NOISE收錄。

「A neural network based noise suppression method for transient noise control with low-complexity computation」提出使用 AI 抑制鍵盤、敲門聲等。該演算法使用了優化的諧波相關性(Modified Harmonic-Correlation),和獨創的損失函式,在一個 RNN 模型上進行訓練。在終端執行時,演算法結合了網易雲信自研的 NENN 推理框架,在大幅提升降噪效果的同時,保持了一個極低的運算複雜度。

「A real-time music detection method based on convolutional neural network using Mel-spectrogram and spectral flux」提出了一項音樂檢測器,利用 CNN網路對不同場景中的音樂聲音進行檢測和減損。作為國內行業中的首個 AI 音樂訓練檢測模型,網易雲信結合了自研的幀間頻域特徵和一個輕量級神經網路,訓練出了一個音樂檢測率高、魯棒性強、計算開銷小,適合在各個端側落地的 AI 模型。通過對環境聲音的檢測,模型能夠區分出音樂和非音樂場景,並基於此先驗資訊,對 RTC 中音訊 APM 處理進行有針對性地調整,在保證語音訊號質量的同時,大幅提高音樂訊號的質量。

2022年,雲信團隊的麥克風嘯叫檢測方法被 ICASSP 2022 收錄,在該工作中雲信團隊採取了一種基於卷積遞迴神經網路的方法,用於 RTC 應用中的嘯叫檢測,實現了出色的準確性和低誤報率。

駕馭AI加持下的影片處理技術

影片處理技術指的是對全圖或全圖中某一區域做影片效果的改進和提升,因此需要進行畫素級處理。RTC 實時通訊、直播及點播場景業務往往大量使用720p 和 1080p 等高清解析度,導致處理的資料量非常大,但以上場景對畫面質量存在較高要求,不能採用下采樣等方式來降低資料量,這要求影片處理演算法必須能夠兼顧計算實時性及低功耗的要求。

從2020年初至今,雲信團隊在穩定的影片通訊質量基礎之上,成功研發了多種智慧影片處理與編碼技術,包括實時 AI 影片超分演算法、智慧影片增強演算法、深度學習的影片編碼器等,為直播、點播和 RTC 場景提供核心技術。影片處理技術目前服務於網易雲信音影片通話SDK、網易傳媒、有道、LOFTER和網易雲音樂等產品線。

其中,雲信團隊深耕的技術方向包括輕量級網路,針對影片處理模型、推理裝置的深度優化,以及持續改進計算機視覺網路設計和訓練方法。

  • 輕量級網路

智企雲信 RFDECB 是雲信團隊設計的自適應神經網路,設計採取了逐級的殘差特徵提取,加上每級的重引數化結構,能更高效地提取影象特徵,且執行速度快。RFDECB 在頂級學術會議 CVPR NTIRE 2022  獲得高效率超解析度挑戰賽總體效能賽道冠軍,以及執行時間賽道季軍。

目前,基於 RFDECB 網路的影片超分技術已經落地雲信音影片通話 SDK,服務超過 10,000 家客戶。雲信智碼超清雲轉碼技術也是搭建在 RFDECB 網路之上,為客戶提供了影片清晰度更高且位元速率降低 40% 以上的轉碼,廣泛應用於直播點播、互動直播業務。

  • 模型優化技術

為了能在各種裝置上執行,雲信團隊對模型進行了大量優化,保證模型處理的高效,同時保持效果穩定。這些優化大量使用了模型剪枝技術來壓縮模型引數量,用以減少推理時間。另外,優化還嘗試了多種蒸餾方法。

  • 裝置優化技術

大量的計算髮生在端側,尤其是移動端,各種裝置參差不齊,只靠輕量級的網路不能完全解決問題。雲信團隊針對移動端自研了自己的深度學習推理框架,自研推理框架大量使用 GPU 進行推理計算,同時對 CPU 進行了大量精細的 SIMD 優化。

除了常規的優化外,雲信團隊還對影片處理的特點做了創新性的優化,使用 int16 量化和稀疏推理。基於上述技術優化,雲信團隊的深度學習演算法在大量移動裝置中得以應用,即使在一些較差的裝置上也能執行影片超分等演算法,有效地提升了使用者影片的體驗。

  • 網路設計和訓練方法優化

在目標檢測、識別分割處理兩大類任務上,雲信團隊通過網路設計優化、訓練方法優化分別提升了上述任務的效果。

在優化網路設計方面,雲信團隊將流行的 encoder-decoder 網路結構及其變體設計成為主幹網路。為了進一步增大感受野,同時更高效地融合各層特徵,加入類金字塔結構。

除了影象資料外,在 loss 上加入各種特徵資訊提升學習效果。在訓練方法上,雲信團隊標註了大量資料,同時採用瞭如下多種方法,包括資料增強擴充樣本、隨機更換、多尺度訓練、難例挖掘等。

駕馭AI加持下的客服機器人/自然語言對話技術

自然語言對話技術要求系統具備從零學習的能力,快速領悟行業知識,並且針對業務場景進行多輪、有效的對話。在自然語言對話技術的支援下,智慧客服機器人提供從文字諮詢、智慧外呼、業務辦理等多維度的客戶服務,從客戶獲取到訂單管理實現了無人化、智慧化,並越來越多地在金融、零售、房地產、物流等行業應用。

自2016年以來,網易雲商團隊(以下簡稱「雲商團隊」)不斷完善旗下的智慧機器人產品網易七魚,目前已有40萬+企業客戶正在使用雲商提供的線上客服、雲呼叫中心、客服機器人、工單系統等服務。

雲商團隊非常重視對前沿自然語言對話技術的提升:通過優化客服的語義匹配演算法和對話方塊架,雲商團隊高效解決了複雜場景下的訪客需求;通過形成基於行業 know-how 的知識包,成功提高了場景的快速落地能力;通過分散式計算及去 GPU 化,實現了自然語言對話系統的低成本及高可用性。這些技術推動雲商智慧客服機器人的持續進化,提升客戶的滿意度。

  • 構建高效解 決訪客需求、低成本、高可用的技術方案

為了不斷優化機器人的應對能力,雲商團隊著力於提升基於大模型、多模型整合與知識蒸餾的語義匹配演算法、 基於FAISS 語義搜尋引擎的智慧推薦方案和基於知識圖譜的問答能力等三個方向。

1.基於大模型,多模型整合與知識蒸餾的語義匹配演算法

雲商智慧客服機器人的基礎功能是識別訪客意圖。雲商團隊採用當前主流的 Transformer 結構,同時使用蒸餾加上多模型整合思想,既提升了模型的推理速度,也提高了意圖識別的精度。演算法採用 sentence-bert 模型思想,並在此基礎之上做了重點優化。

2.基於 FAISS 語義搜尋引擎的智慧推薦方案

為了方便 B 端客戶配置自己的知識庫,雲商提供智慧問法推薦功能。根據客戶的問題和語義搜尋引擎,系統會提供一系列語義相似但是表述不同的句子供選擇,幫助客戶快速完成配置工作。雲商團隊使用的演算法是基於 FAISS 的語義搜尋引擎。雲商團隊採用的模型是客服領域的專用模型,同時對向量長度執行 PCA 降維操作,進一步提升檢索速度。

3.基於知識圖譜的問答能力

雲商還能提供表格知識圖譜的功能,精確識別不同的商品型號,以及型號的不同屬性。雲商團隊把銷售領域表格分為實體、屬性、答案三個部分。通過識別實體和屬性,系統能夠鎖定唯一的一個單元格,把答案反饋到 C 端客戶。在這個功能的基礎之上,雲商的表格知識圖譜還支援上下文對話能力,具備反問和推薦的能力。

  • 實現低成本及高可用

作為平臺型應用,雲商團隊不斷升級多種技術指標,確保服務業務場景的豐富性和持續反饋。在低成本及高可用的總目標下,雲商團隊的工作重點是白名單管理平臺、計算降本增效(去GPU化)、模型多版本管理平臺以及業務問題定位及效果監控。

  • 實現快速冷啟動

雲商智慧機器人的表現基於對行業知識和對話語境的理解,這就要求初始系統具備學習行業知識和極強的變通能力。為了實現快速冷啟動,雲商團隊的技術重點是打造基於行業的知識包和構建冷啟動助手。

1.打造行業知識包:雲商團隊使用 FAISS 語義檢索引擎,通過設定不同的閾值條件獲得分層聚合的檢索結果,並進一步通過DBSCAN完成餘下內容的聚類合併。最後通過人工挑選,完成整個行業的知識沉澱。

2.構建冷啟動助手:雲商團隊從獲得「近似問法」入手,使用 Paraphrase 生成模型,獲得一批相似問法候選項,再通過排序模型,獲得最後的相似問法集。另外,雲商團隊採用了稱為「回譯」的方法增加相似問法,該方法藉助於翻譯模型,將標準問法翻譯成英、日、法、德等多國語言,再將翻譯結果譯回中文,以此獲得近似問法。

  • 獲得AI能力的持續優化、發揮人機互動的協同優勢,提高互動智慧度

1.FAQ 知識庫的持續構建:雲商團隊的研究重點是基於人工客服會話的問答提取方案和基於說明文件的問答提取方案。

2.基於人工客服會話的問答提取方案 雲商團隊使用了一種基於客服會話自動構建 FAQ 的方法。首先,利用開源文字相似度語料(如ChineseSTS)訓練 Sentence-BERT 模型,將與客戶對話的句子向量化。向量化後的文字可利用餘弦相似度來衡量文字之間的語義相似度。隨後,利用相關規則提取會話中的問句。以語義相似度為權重構建無向連通圖,通過改造 PageRank 演算法對所有問句進行關鍵度排序,獲取關鍵問句作為標準問句。最後,將標準問句後面客服的三句答覆作為答案候選。通過答覆和問句之間的主題相關度進行排序,得到最終答案。

3.基於說明文件的問答提取方案:雲商團隊還可以根據使用者提供的文件提取問答內容,構建雲商平臺的 FAQ 知識庫。雲商團隊使用一站式的方式,從文件中抽取問答對。這樣能夠同時提取問題和答案,使問題生成和答案抽取的過程相互影響,有效提升問答對抽取的準確率。問答提取模型採用的是基於 Transformer 的 seq2seq 架構,實踐中使用 BART 模型,由雙向編碼器、自迴歸解碼器構成。

· 智慧外呼互動體驗智慧度提升

雲商團隊著手降低演算法的不可控性。目前,外呼系統的實現方式採用流程圖的形式進行對話狀態跟蹤(DST)、對話策略(DP)、自然語言生成(NLG)的規則配置。演算法主要基於(NLP)技術識別使用者意圖,通過ASR糾錯、噪聲過濾、意圖識別及實體抽取等環節提取實體資訊。

1.ASR 糾錯:ASR 基於端到端框架的流式語音識別系統,支援智慧打斷功能。ASR 糾錯作為 ASR 模組的補充,用於糾正轉寫過程中出現的錯誤。糾錯過程結合雲商機器人的問題,構建出有效的上下文資訊,理解使用者的內容進行錯誤識別與糾正。這個補充能夠緩解 ASR 轉寫存在的上下文依賴問題,降低專有名詞、近音字的錯字率。

2.噪聲過濾:在ASR糾錯後,系統會進行語義檢測,通過語義過濾掉無意義和不相關的回覆。

3.意圖識別:系統會通過內建行業知識庫和模型,根據使用者所屬行業領域進行識別。整體上,採取相似度匹配和分類相結合的方式:識別結果依舊優先採用自定義知識的匹配結果,保證使用者的特殊配置需求;未匹配到時,依賴領域知識和內建分類模型給出的識別結果。

4.實體抽取:提取出使用者說話內容中的重要資訊,如姓名、地址、時間等,方便後續的資料統計和分析。提取的物件包括內建常用實體和自定義實體兩種。常用實體採用 BERT 預訓練模型,具有較高的準確率;自定義實體通過配置規則和相似問的方式,具備較高的靈活度。

掃描上方二維碼或點選文末 「閱讀原文」 免費獲取報告,進一步探索AI在內容風控、音影片通訊及自然語言對話領域的應用實踐。

「其他文章」