高校賬號盜用監控及釣魚郵件檢測

語言: CN / TW / HK

摘要:日誌模式匹配電子郵件原始日誌通常由眾多程序組成,不同的程序具有不同的日誌格式,同時日誌中時常會出現異常資料,如非ASCII字元,不完整資料等;多因子模型不同的特徵值擁有不同的權重,和已知垃圾郵件/釣魚郵件樣本進行相似性匹配,需要做相應的資料標記以及建模工作;日誌事件提取日誌處理的關鍵任務之一是從分散的日誌行中提取完整的郵件傳輸事件,通常需要用佇列ID等關鍵字進行聚合。

本文聚焦高校電子郵件服務運維中面臨的兩大痛點, 賬號盜用監控和釣魚郵件檢測 。希望利用當前流行的 開源技術框架 (Postfix/Amavisd/Clamd/Spamassassin/Elasticsearch/Logstash/Kibana)搭建可行的解決方案,提升運維效率,減輕運維人員壓力。

一、賬號盜用監控

1.盜號目標:獲取郵箱、網站、銀行賬號密碼

2.盜號手段:釣魚郵件、木馬、釣魚網站

3.常見行為:繼續盜用更多內部賬號、向外傳送釣魚郵件

4.檢測手段:發現賬號異常行為加人工判定

賬號盜用監控—外發SMTP節點監控

左上圖顯示了來自中國大陸以外的通過身份認證的發件IP分時統計資料;

右上圖顯示了來自上海以外城市的通過身份認證的發件IP分時統計資料;

左下圖顯示了向校外發送郵件量分時統計資料;

右下圖顯示了向校外發送郵件狀態(Sent/Deferred/Bounced)佔比分時統計資料;

賬號盜用監控—SMTP認證發信監控

左圖顯示最近24小時通過身份認證的發件IP地址Top10;

右圖顯示最近24小時通過身份認證的發件賬號Top10;

二、釣魚郵件檢測

 1. 常見行為特徵:

-批量傳送,持續傳送

-通過正規郵箱如Gmail/Yahoo/QQ/163傳送

-通過肉雞及專用域名傳送

2. 常見內容特徵:

-仿冒發件人身份,標題及內容多為賬號停用、賬號備案、容量超限等

-通常包含釣魚網站連結,要求輸入賬號密碼

-通過附件形式套取賬號密碼或者植入木馬

3. 按檢測難易程度分類

-低階:大批量,短時間,相同標題,相同發件人,相同發件IP

-中級:多批次,每次少量,發件人或者發件IP相同

-高階:分散發送,IP不相同,發件人不相同、標題不完全相同

釣魚郵件檢測—常見郵箱入站統計 

左上圖顯示了最近24小時來自Gmail的發件人排名Top10;

右上圖顯示了最近24小時來自Yahoo的發件人排名Top10;

左下圖顯示了最近24小時來自163的發件人排名Top10;

右下圖顯示了最近24小時來自QQ的發件人排名Top10;

釣魚郵件檢測—入站郵件聚合資料

左上圖顯示了最近24小時按校外到達郵件標題統計排名Top10;

右上圖顯示了最近24小時按校外到達郵件發件人郵箱統計排名Top10;

左下圖顯示了最近24小時按校外到達郵件發件人IP統計排名Top10;

右下圖顯示了最近24小時按校外到達郵件退信郵箱統計排名Top10;

三、技術框架簡介

1. 建立專用鬆耦合入站郵件閘道器、郵件外發伺服器

Postfix Amavis Clamd Spamassassin

Postfix: 目前最主流的MTA軟體,用於接收和傳送郵件;

Amavis: 反垃圾郵件引擎;

Clamd: 病毒掃描軟體;

Spamassassin: 垃圾郵件綜合評分軟體;

2. 日誌集中、資料清洗、資料視覺化

Rsyslogd Elasticsearch Logstash Kibana

Rsyslogd 日誌服務程式;

Elasticsearch: 分散式反向索引服務程式;

Logstash: 流式日誌資料解析轉換工具;

Kibana: ElasticSearch視覺化工具;

3. 批量查詢、批量刪除

Python + JavaScript + API

技術框架簡介—技術難點

1. 資料清洗

日誌模式匹配:

日誌模式匹配:電子郵件原始日誌通常由眾多程序組成,不同的程序具有不同的日誌格式,同時日誌中時常會出現異常資料,如非ASCII字元,不完整資料等;

日誌事件提取:

日誌事件提取: 日誌處理的關鍵任務之一是從分散的日誌行中提取完整的郵件傳輸事件,通常需要用佇列ID等關鍵字進行聚合;

日誌中的特殊字元、不規範資料處理:

日誌中的特殊字元、不規範資料: 非ASCII字元、BASE64編碼後的UTF8及GB2312字元甚至錯誤編碼導致的亂碼,最低要求是碰到此類字元時程式不應中斷退出;

2. 異常檢測

一維特徵值統計相對容易

一維特徵值: 常見的如發件人郵箱、發件人IP、標題等特徵值統計,基礎日誌資料半結構化(匯入ELK完成反向索引)以後相對容易實現;

多因子模型存在諸多挑戰(樣本選擇、特徵向量、分類演算法)

多因子模型: 不同的特徵值擁有不同的權重,和已知垃圾郵件/釣魚郵件樣本進行相似性匹配,需要做相應的資料標記以及建模工作;

技術框架簡介—校外釣魚郵件攔截處置機制示意圖

通過蜜罐郵箱、使用者舉報、日誌分析三大途徑發現釣魚郵件及垃圾郵件,新增黑名單攔截並清理已到達的垃圾郵件;

通過日誌分析查詢已到達的郵件並進行批處理。

版權宣告:本文為上海交通大學網路資訊中心 瞿慶海老師的原創文章,文章首發於Coremail雲服務中心管理員社群。轉載請附上原文出處連結及本宣告。