【西安交大沈超分享】用全域性視角開展網路欺詐風險識別與防禦

語言: CN / TW / HK

IEEE x ATEC

IEEE x ATEC科技思享會是由專業技術學會IEEE與前沿科技探索社群ATEC聯合主辦的技術沙龍。邀請行業專家學者分享前沿探索和技術實踐,助力數字化發展。

在社會數字化程序中,隨著網路化、智慧化服務的不斷深入,伴隨服務衍生出的各類風險不容忽視。本期分享會的主題是《網路欺詐的風險與對抗》。五位嘉賓將從不同的技術領域和觀察視角,圍繞網路欺詐場景下的風險及對抗技術展開分享。

以下是沈超教授的演講

出品人&演講嘉賓 | 沈 超

西安交通大學教授、網路空間安全學院副院長

ATEC科技精英賽高階諮詢委員會專家

《網路欺詐風險識別與防禦的全域性視角》

非常感謝IEEE和ATEC聯合舉辦的科技思享會。大家好,我是西安交通大學的沈超。我也非常榮幸能夠在這裡跟大家分享我們對一些問題的看法。這個主題是《網路欺詐風險識別與防禦的全域性視角》。

我國已將人工智慧上升到國家戰略層面,在工業醫療領域都有著廣泛的應用和市場前景。同時,金融領域已經成為人工智慧技術成熟落地應用的行業之一。可以看到的是,2022年我國智慧金融市場的規模已經超過了5000億人民幣大關。

與此同時,在網際網路和金融場景之下,人工智慧技術面臨著巨大的安全威脅和挑戰。例如AI 人臉支付被欺騙,AI 偽造資料取錢等等。根據統計,從2017年到2021年,全球利用智慧偽造等技術進行網路欺詐導致的金融損失,累計已經超過300億美元。其中可以觀察到利用語音、影片等資訊偽造技術進行網路欺詐的案件頻發。例如,2019年偽造語音詐騙總額高達了1700萬美元。深度偽造技術以假亂真,引發了很多的爭議,而影片合成技術也被不法分子利用,進行網路詐騙。

這樣現象背後都是AI 技術在發展的同時,帶來的隱私和風險,尤其在網際網路及金融場景下的應用更為明顯。因此,今天想跟大家也分享一下,從我的觀點來看,網際網路場景或者金融場景之下,AI技術面臨的安全風險和挑戰。

我們以這個AI 的這個流程,尤其是機器學習方法的實際應用流程來分享。在這裡我們很粗略地將它分了四個階段,包括了模型訓練、模型推斷、模型部署和模型應用。

模型訓練階段

在模型訓練階段的風險問題是,模型很容易遭受到後門攻擊。這是模型安全風險中一個重要問題。由於缺乏時間、資料或裝置等等,導致預訓練需要進行微調,而很多廠家都會使用公開預訓練模型。

我們需要注意到的是,共享的模型被很容易被植入後門,因為模型是來自於第三方機構的,類似於BigML 、open ML等等。有很多技術愛好者或技術人員在這些網站上放出開源模型,大部分從業者會從上面下載相關模型,在這些模型的基礎上進行二次開發,再應用到自己的場景當中去。而我們知道,這些模型很容易被別人植入後門。在模型的sharing 和reusing的過程之中,就會導致使用者被動地把有後門的模型用在系統裡。現在有一些後門植入方法,即便對模型進行重新的全域性訓練,也會存在相關的後門點。而且,現在很多模型引數很大,有些語言模型或更大廠商的模型,有上千億、甚至上萬億個引數,全域性訓練需要花費相當大的人力和資源。具體來說,對於這種公開的模型,其實後門植入是比較簡單的。但是,由於很少有人會放出來一些後門的樣本資料,所以測試資料集非常少。並且應用場景很廣泛。導致現在去尋找這樣的後門是非常困難的。

我們團隊曾做過一個研究,就是我們下載了這個領域當中最popular的前500個模型,這些模型下載量都很大,有的一個月的下載量能上好幾十萬。在這樣的模型之上,我們利用自己開發的工具進行後門檢測,發現大量的公開模型存在很多後門點,或者說有很多容易被攻擊者利用的後門場景。因此,這種後門的植入手段引發的風險是很大的。而且,後門檢測的限制條件很多,很多後門的植入方法是很明顯的,很容易看出來他對原始圖片是有修改的。

我們團隊自己在做相關的研究,很多比較前沿的後門的植入趨勢是讓後門變得更加自然,更加不突兀、即畫素級的後門修改,這樣的後門很難檢測。植入後門很簡單,我可以在上億個神經元之中放置後門的選擇點,但是我想把它找出來卻是一件很難的事。觸發器在哪裡、什麼樣的、什麼效果,你並不知道,而且測試集驗證集也很少,很難去觸發一些觸發器的特徵或者一些標註,使得後門的檢測面臨著很大的挑戰。但是,這種模型的應用點是非常多的。這樣的威脅如果存在於模型之中,而且沒有被你發現的話,可能會帶來相當嚴重的後果。

其實,後門植入過程也比較簡單,首先是後門的配置。比如我們在 “5”的圖片上增加一個框體,我們將這樣的一個框體作為它的後門的觸發點。我們在訓練的時候,把“5”和框體配在一起,再給它標籤給成“4”。在做神經網路訓練的時候,這樣一個樣本會被神經網路訓練成“4”,那做識別的時候,如果模型看到這樣一個“5”,模型就觸發給出“4”的結果。這就完成了一個後門輸入的過程。所以,我們可以看到後門植入過程是非常簡單的(你要做點壞事情是很容易的)。隨著後門植入相關攻擊領域的發展,有一些後門植入的新的概念和方法出來。我們的團隊的研究方向,是讓後門植入更加隱蔽。

以人臉識別為例,人臉識別的過程是從原始輸入到人臉檢測、到區域識別、到特徵提取,再把人臉特徵拿出來之後再存入到特徵庫裡面,就完成了人臉訓練集資料的寫入。他在特徵在這個識別的時候,我們拿一張新的照片出來,把這個人臉摳出來,然後提取他這個特徵,再和特徵庫中的特徵進行匹配,如果合適的話,就完成人臉識別。我們可以關注到原先的後門植入方法都是在原圖上進行畫素級的修改,但是現在,因為我們可以很容易地將“在原圖上修改的後門”識別出來,如果我們再下沉一步,把這兩個後門放在特徵提取網路上。如果在特徵提取環節進行後門的改寫,或者說後門植入的話,那在原始圖片上就很少有修改了,這樣的過程導致後門的提取、後門的檢測變得異常的困難。我們做了很多的實驗,我們發現在物理場景之中,基於特徵後門攻擊的方式,對當前所有的後門特徵檢測的方法都是有效的,而成功率是極高的。

除了這個後門的植入過程,我們還要關注後門檢測的環節。當前的這個學術領域及工業界,包括我們自己關注的後門檢測環節主要三類:第一是攝動輸入聚類分析、第二是隱層輸出軌跡分析、第三是智慧模型引數分析。我們可以看到,大家關注的環節分別對應著模型部署、整合和模型推斷。

你關注這樣的環節,就意味著我們會將後門檢測方法分為三類:一類是白盒的、一類是灰盒的、一類是純黑盒的。所謂白盒,就是大部分模型引數分析會放在模型部署環節之中,相當於從逆向來看,從輸出推導到輸入,追蹤這樣有後門的輸出,對應輸入是什麼是什麼情況。但是,這樣的方法需要對模型進行一個白盒的寫入,就是你要知道模型的所有的細節。再往上的話就是在模型整合環節做隱層的輸出,隱層輸出在中間層。我們追蹤當前的歷史樣本的輸入,從輸入來看當前的輸出是什麼效果。然後再往上的話,就是純黑盒,從大量的輸入來推斷相關的後門是否存在,意味著你在輸入階段需要有大量的後門樣本。因此,前期的樣本收集和評價非常關鍵。

此外,我們還想提一個模型訓練階段的延伸風險,這是跟後門有點關係,但是是從另一個側面來看這個問題的。我們知道在訓練環節會發現很多細節和問題點,但這些問題都存在很強的隱蔽性,很容易導致時間和資源浪費。因為模型訓練的過程中,我們大部分的人如果碰到了模型訓練的問題,第一個反應是,我重新跑一遍。但是,訓練一個大規模的深度學習模型,往往會花費很長的時間,模型訓練問題的解決非常重要,而不是把這個模型直接重新跑一遍,導致時間資源的極度浪費。

我們觀察到這個問題之後,想讓這個偶發性的問題要得以解決。因此,我們想做一個關於訓練問題的自動化檢測和修復的手段,在模型訓練遇到問題時,不必簡單粗暴地重新訓練。對模型深度學習訓練狀態進行實時監控,對訓練狀態引發的潛在風險進行檢測,並對問題進行實時修復。針對這樣的思路和解決方案,我們提出了一款基於深度學習的檢測框架。我們對全網就我們能看到的、最populpar 的495個模型,進行了檢測和修復的測試。我們發現訓練問題的檢測準確率達到百分之百,修復成功率也達到97.33%,平均準確率能提升到47%,這裡的訓練問題,我們主要關注梯度消失、梯度爆炸、Dying ReLU、不穩定收斂、緩慢收斂這5種訓練問題。

模型推斷階段

現在,我給大家彙報我們在模型推斷環節所產生的一些相關工作,說到模型推斷,不得不提到對抗樣本問題。我們都知道對抗樣本是對原始資料進行修改,然後構造一些人類難以分辨的擾動,這樣的擾動會引起深度學習演算法決策的輸出改變,它主要的目的是造成人類與深度學習模型認知的差異。最經典的對抗樣本事例就是從大熊貓到長臂猿。但是我們需要注意到的是,這樣的擾動肯定不是隨機的擾動,它一定是一個精心設計的擾動。從這樣的擾動出發,我們可以欺騙出相應的機器學習模型。我們可以發現,這樣的對抗攻擊方式目前對人臉識別的支付,AI金融的產業也造成了一定的威脅和挑戰。

智慧演算法的對抗攻擊現在面臨著很多複雜多變的不確定的場景,導致當前的這種攻擊成功率並不高、隱蔽性差等問題。我們現在的一個主要思路,是可以利用模型的可解釋性,獲取樣本的關鍵區域,並對這種可解釋性關鍵區域提出基於模型可解釋性感知圖的對抗攻擊,用這樣的方法在一定程度上來遏制對抗攻擊對於部分識別和智慧感知場景造成的影響。此外,我們針對對抗環境中演算法的多樣性,和資訊獲取的完整性,可以利用平移空間的對抗樣本的通用和可轉接性進行激勵。然後設計相關的敏感頻帶定位方法,以此在一定程度上對對抗擾動進行緩解和遏制。

在對抗防禦的方面,我們會利用多層級領域分佈探索機制,並基於自蒸餾的動態軟標籤預測機制,和自監督的動態軟標籤對抗防禦方法來防禦統計噪聲和對抗擾動造成的負面影響。這裡面有2類技術,一類是表徵空間特徵探索,相當於我們在表徵空間中找到這種跨域的機制探索的方法,同時採用一些自蒸餾的軟標籤監督訊號,對對抗攻擊進行防禦。此外,通過互斥類中正確識別樣本的非齊次特徵凸擬合,探測模型決策邊界的預測歧義區域。同時,也可以利用獲得的關鍵樣本對模型進行微調,來提高受保護模型的魯棒性。

因為魯棒性也是我們這個對抗樣本研究中很關鍵的一個內容。對抗樣本的原理,就是我們需要實現樣本的跨界。所以,我們要在這樣的情形之下,對關鍵樣本進行對抗微調,以使得這種決策邊界具有更好的魯棒性,更好地提高防禦效果。

在模型推斷階段,我們還想提一下深度偽造的安全問題。因為深度偽造安全問題,現在的這種場景很多,給身份欺詐,金融欺詐等帶來各種各樣的風險。深度偽造技術也可以對人臉、物體、場景的合成,人臉屬性編輯、表情操控等方面有一些明顯的影響。

在人工智慧對抗場景之下,偽造內容的檢測迅速發展,對個人風險、企業風險、國家風險都會引發負面的效應。如在現實場景之中,AI 偽造語音的欺騙,AI 偽造影片的詐騙,還包括AI 偽造身份欺詐等等。具體來說,深度偽造技術分兩類,一個是基於影象的深度偽造,一個基於影片的深度偽造基於影象的深度偽造技術,又包括基於傳統的機器學習方法,基於CNN的訊號偽造檢測的方法,還包括基於影片連續性的,基於GAN特徵的檢測方法。基於影片的深度偽造方法,還包括基於影片連續性差異的方法、基於多幀物理級的方法,基於多幀行為差異的方法。

總體來看,深度偽造的檢測技術是比較迥異的,而且缺乏統一的評估標準。因此,為了實現高效率,高精度的偽造檢測,我們採用了單幀、關鍵幀的檢測方法,來對這種多類的方法進行比對。我們可以看到,這種關鍵幀的檢測、多幀輸入的模型檢測設計,是這中間的核心問題。從當前的結果來看,檢測精度不下降的前提下,我們的效率可以提升10%以上。

我們對現有的檢測方法做了一個總結,我們可以看到現有的深度偽造檢測方法各異,缺乏在統一資料集上進行公平的對比,檢測能力評測指標單一且不完善,缺乏對效能指標的一些評價。因此,在這樣的一個基礎之上,我們構建了這個深度偽造的檢測評估基準,包括了十多種主流的深度偽造檢測方法,還有包括7個主流的深度偽造資料集。但是,我們發現在人眼感知與演算法感知困難的偽造基準資料集上,效果差、實用性差。

我們目前集成了多個主流的資料集、多種演算法對檢測方法進行了一個全方位的整合,構建了這種深度偽造基準的資料集。以深度偽造、精準化的評估方法,形成了深度偽造檢測的欺詐風險識別系統。然後,這個系統當時包含了多種資料集、多檢測演算法,多生成質量評價,與多檢測演算法,還有包括相關的標準以及能力的評估等。

我們希望能夠通過這樣的手段和方式,在一定程度上,來降低深度偽造所造成帶來的安全風險。

模型部署練階段

接下來我們大家彙報一下,在我們部署環節,我們可能遇到的安全風險。模型部署階段,我們面臨AI模型可解釋的問題,即決策結果難以解釋、存在安全欺詐風險的問題。具體來講,AI模型對預測結果很難解釋得清,這導致了網際網路場景下安全欺詐風險的產生。比如對狼的圖片,我們利用模型梯度資訊進行視覺化後,可以發現相關的結果是在於:模型將帶有雪地背景的圖都識別成了狼。這證明該模型推斷過程存在很大的問題,不具備很好的可解釋性。

針對這樣的問題,在模型可解釋性專案方法研究中,我們研究了輸入樣本各部分對這個決策的重要影響,提出了從輸出到輸入的特徵歸因的方法,在特徵歸因的情況下,觀察每個輸出決策部分,對應樣本的輸入特徵是什麼?然後把這樣一個對應對映關係從一定程度上作為模型可解釋性的一個度量方法。

其次,還有一些特徵視覺化的方法,那就是從輸入到輸出了。我們在這裡通過神經元學習到的特徵進行視覺化的展示,從輸入到輸出進行特徵到輸出結果的一個對映。這樣的方式也可以作為一個將模型的梯隊資訊進行視覺化,然後用這樣的視覺化圖做一定的解釋。

模型應用階段

最後是AI應用階段的安全風險。在模型應用階段,我們可以看到AI框架被大量廣泛地使用。因為框架都是極其基礎的。不管國內還是國外的,現在有很多企業都有比較成型的框架。程式碼都是由這個程式設計師去寫的,海量程式碼一定存在安全隱患,因為人是最不穩定因素之一。我們在開發任何框架之前都會依賴庫。再往上層,有一些深度學習的框架,然後比較典型的有Torch,TensorFlow 等等,再上層才是使用者的層面,有Program Logic、使用者的資料、模型等等。我們前一陣子做了一個深度檢測分析,有人會寫一些package。但是我們對於package 進行一個深入分析之後,會發現存在很多漏洞。比如一些漏洞的潛在威脅在於heap overflow堆疊溢位,還有crash、DOS拒絕服務等等問題,可能會導致整個機器學習系統的崩潰,所以在機器學習實現過程中的安全風險,還蠻大的。我們希望能引起大家的重視。

所以,針對深度學習框架多後端安全程式碼實現安全分析,我們也開發了相關的工具。從傳統的模糊測試到人工智慧可信的角度出發,提出了基於模糊測試、遺傳演算法、 感知增強、脆弱性問題到評估反饋等一系列執行手段,這裡的關鍵問題在於脆弱性檢測和安全隱患定位。脆弱性檢測在於研究如何改進現有的分析方法,來增強相關的這種發掘能力。安全隱患定位是從已有的情況出發,發現導致這個當前風險的模組和函式在哪裡。

基於這樣的一個思路,我們開發基於以上演算法的模糊測試的深度學習框架的多後端的檢測工具,發現並被定位了TensorFlow,Theano等四個主流框架的,我們目前也對框架進行了擴充套件,現在支援了8個框架。相關的論文我們已經發表了,大家感興趣的話可以去看一下。

總  結

在網際網路或金融產品之下的AI 模型,我們看到了今天分享的幾個階段,包括訓練階段,推斷階段、還有部署階段和應用階段,都是可能會導致當前出現風險和安全隱患的環節。每個環節之中,都有一些相關的一種技術點或者是攻防的手段需要大家去注意。我們的目標是想能夠形成一種全週期的AI 安全風險識別與防禦手段。在未來的研究工作之中,我覺得資料和機理融合是很重要的。我們知道現在的模型都是通過資料驅動來形成的,模型本身一定要與當前的業務場景相結合,需要對應用場景的機理進行理解。在此基礎上,資料驅動和機理理解融合起來,形成網路欺詐智慧識別防禦,才是未來的一個比較好、一個值得去做的一個方向。

OK,今天我跟大家分享就到這裡,謝謝大家。

雷峰網 (公眾號:雷峰網)

雷峰網版權文章,未經授權禁止轉載。詳情見 轉載須知

「其他文章」