有限樣本下的暗網指紋識別

語言: CN / TW / HK

原文作者:Se Eun Oh, Nate Mathews, Mohammad Saidur Rahman, Matthew Wright, and Nicholas Hopper

原文標題:GANDaLF: GAN for Data-Limited Fingerprinting

原文連結:https://petsymposium.org/2021/files/papers/issue2/popets-2021-0029.pdf

筆記作者:[email protected]

文章小編:[email protected]

簡介

該文為發表於PETS 2021的GANDaLF: GAN for Data-Limited Fingerprinting。目前Tor是使用最廣泛的匿名網路之一,雖然Tor具有一定的匿名性,但已經存在一些手段能夠恢復有關Tor流量的部分資訊。其中已有大量針對Tor網站指紋的研究。利用暗網網站指紋技術,能夠通過Tor連線中傳送和接收的流量模式來識別連線是否指向特定的目的地。由於大多數暗網網站會定期更新和修改,因此訓練指紋識別分類器面臨資料較少或者需要經常重新收集資料的問題。為此,在本篇論文中,作者提出了一種基於對抗生成網路的指紋識別方法:GANDaLF。GANDaLF旨在使用很少的訓練樣本,並通過使用對抗生成網路生成大量“假”資料來幫助訓練深度神經網路來區分實際訓練資料的類別。

方法

首先在資料集層面上,作者不僅關注模型在實驗環境下的效能,更關注開放世界環境下的指紋分辨能力。因此做出兩種假設,在封閉世界的假設下,受害者正在訪問一個攻擊者感興趣並可以訓練的一組固定站點,稱為受監控的集合。相比之下,開放世界環境的假設下,還允許受害者訪問非受監控集中的站點。此外,作者還將資料集分為只包含網站索引頁和包含網站子頁面資料兩類。

之後,針對上述四種資料(是否假設為開放世界環境、是否包含網站子頁面資料)集分別訓練模型,進行實驗。神經網路結構如下圖所示。 該網路為作者優化過的SGAN網路,SGAN是對抗生成網路結合了半監督學習的一個變種。SGAN同時訓練生成器與半監督式分類器,通過在無監督模式下的訓練,使得網路能夠從大量未標記的資料集中學習有用的特徵提取功能,然後將這些特徵用於監督模式下的分類任務,從而得到一個效果更好的半監督式分類器。SGAN的判別器通常為多分類,型別數量為N+1(N種有標籤的型別和1種生成器偽造的假資料)。作者基於SGAN,並針對網路流量分類的特點對模型做出改進。由於網路流量並不像影象那樣存在二維層面上的特徵,因此作者使用更深的1D卷積結構對流量隱含特徵進行提取,並嘗試引入dropout、批歸一化和不同的損失函式進行實驗。

實驗

作者主要針對GANDaLF的效果與相關工作進行對比。如下表所示,在封閉世界環境的假設下,針對只包含網站索引頁的資料集的測試中,GANDaLF的綜合效果不錯,但是在任何一組測試中都沒有取得完全擊敗相關工作的分類準確率。 相似的,在封閉世界環境的假設下,針對包含網站子頁面的資料集的測試中,GANDaLF同樣沒有超過其相關工作。但是這組實驗中,GANDaLF的速度快於第二名20%以上。 但是,在切換到開放世界環境的假設下(使用者不僅會流量受監控的網站,還會瀏覽不受監控的網站),GANDaLF的表現很強。如下圖所示,GANDaLF的效果明顯優於在封閉世界假設下表現出色的TF和k-FP分類器。GANDaLF能夠在保持不錯的準確率的情況下保持查全與查準的平衡。 顯然,開放世界環境的假設更加貼近現實情況,並且查全、查準也確實需要進行一定的取捨與平衡,不能簡單地追求高準確率。由上述實驗中可以看到,不同訓練源的組合使GANDaLF能夠從更廣泛的角度進行學習,從而僅使用少量標記樣本進行訓練就可以進行更精確的網站指紋分類。相比之下,當使用少量訓練樣本時,有監督的方法由於學習能力受限於資料分佈,從而導致效能顯著降低。

安全學術圈招募隊友-ing , 有興趣加入學術圈的請聯絡secdr#qq.com