【JS 逆向百例】某網站加速樂 Cookie 混淆逆向詳解
宣告
本文章中所有內容僅供學習交流,抓包內容、敏感網址、資料介面均已做脫敏處理,嚴禁用於商業用途和非法用途,否則由此產生的一切後果均與作者無關,若有侵權,請聯絡我立即刪除!
逆向目標
aHR0cHM6Ly93d3cubXBzLmdvdi5jbi9pbmRleC5odG1s
加速樂
加速樂是知道創宇推出的一款網站CDN加速、網站安全防護平臺。
加速樂的特點是訪問網站一般有三次請求:
- 第一次請求網站,網站返回的響應狀態碼為 521,響應返回的為經過 AAEncode 混淆的 JS 程式碼;
- 第二次請求網站,網站同樣返回的響應狀態碼為 521,響應返回的為經過 OB 混淆的 JS 程式碼;
- 第三次請求網站,網站返回的響應狀態碼 200,即可正常訪問到網頁內容。
逆向思路
根據我們上面講的加速樂的特點,我們想要獲取到真實的 HTML 頁面,需要經過以下三個步驟:
- 第一次請求網站,伺服器返回的 Set-Cookie 中攜帶 jsluid_s 引數,將獲取到的響應內容解密拿到第一次 jsl_clearance_s 引數的值;
- 攜帶第一次請求網站獲取到的 Cookie 值再次訪問網站,將獲取到的響應內容解混淆逆向拿到第二次 jsl_clearance_s 引數的值;
- 使用攜帶 jsluid_s 和 jsl_clearance_s 引數的 Cookie 再次訪問網站,獲取到真實的 HTML 頁面內容,繼而採集資料。
抓包分析
進入網站,開啟開發者人員工具進行抓包,在 Network 中我們可以看到,請求頁面發生了三次響應 index.html,且前兩次返回狀態碼為 521,符合加速樂的特點:
第一層 Cookie 獲取
直接檢視 response 顯示無響應內容,我們通過 Fiddler 對網站進行抓包,可以看到第一個 index.html 返回的響應內容經過 AAEncode 加密,大致內容如下,可以看到一堆顏表情符號,還挺有意思的:
<script> document.cookie=('_')+('_')+('j')+('s')+('l')+('_')+('c')+('l')+('e')+('a')+('r')+('a')+('n')+('c')+('e')+('_')+('s')+('=')+(-~[]+'')+((1+[2])/[2]+'')+(([2]+0>>2)+'')+((2<<2)+'')+(-~(8)+'')+(~~{}+'')+(6+'')+(7+'')+(~~[]+'')+((1<<2)+'')+('.')+((+true)+'')+(~~{}+'')+(9+'')+('|')+('-')+(+!+[]+'')+('|')+(1+6+'')+('n')+((1<<2)+'')+('k')+('X')+((2)*[4]+'')+('R')+('w')+('z')+('c')+(1+7+'')+('w')+('T')+('j')+('r')+('b')+('H')+('m')+('W')+('H')+('j')+([3]*(3)+'')+('G')+('X')+('C')+('t')+('I')+('%')+(-~[2]+'')+('D')+(';')+('m')+('a')+('x')+('-')+('a')+('g')+('e')+('=')+(3+'')+(3+3+'')+(~~{}+'')+(~~[]+'')+(';')+('p')+('a')+('t')+('h')+('=')+('/');location.href=location.pathname+location.search </script>
document.cookie 裡的顏表情串實際上是第一次 __jsl_clearance_s 的值,可以直接通過正則提取到加密內容後,使用 execjs.eval()
方法即可得到解密後的值:
import re import execjs AAEncode_text = """以上內容""" content_first = re.findall('cookie=(.*?);location', AAEncode_text)[0] jsl_clearance_s = execjs.eval(content_first).split(';')[0] print(jsl_clearance_s) # __jsl_clearance_s=1658906704.109|-1|7n4kX8Rwzc8wTjrbHmWHj9GXCtI%3D
第二層 Cookie 獲取
抓包到的第二個 index.html 返回的是經過 OB 混淆的 JS 檔案,我們需要對其進行除錯分析,但是直接在網頁中通過 search 搜尋很難找到該 JS 檔案的位置,這裡推薦兩種方式對其進行定位:
1. 檔案替換
右鍵點選抓包到的第二個狀態碼為 521 的 index.html 檔案,然後按照以下方式將其儲存到本地:
儲存到本地後會發現 JS 檔案被壓縮了不利於觀察,可以通過以下網站中的 JS 格式化工具將其格式化: http://spidertools.cn/#/form... ,將格式化後的程式碼貼上到編輯器中進行處理,可能需要一些微調,例如首尾 Script 標籤前後會多出空格,在 < script > 後新增 debugger;
如下所示:
<script> debugger; var _0x1c58 = ['wpDCsRDCuA==', 'AWc8w7E=', 'w6llwpPCqA==', 'w61/wow7',
最後通過 Fiddler 對其替換,點選 Add Rule 新增新的規則,如以下步驟即可完成替換:
以上操作完成後,開啟 Fiddler 抓包(F12 左下角顯示 Capturing 即抓包狀態),清除網頁快取,重新整理網頁,會發現成功斷住,即定位到了 JS 檔案的位置,可斷點除錯:
2. Hook Cookie 值
因為我們獲取到的 JS 檔案生成了 Cookie,其中包含 jsluid_s 和 jsl_clearance_s 引數的值,所以我們不妨直接 Hook Cookie 也能斷到 JS 檔案的位置,對 Hook 方法不瞭解的可以看看 K 哥往期的文章,以下是 Hook 程式碼:
(function () { 'use strict'; var org = document.cookie.__lookupSetter__('cookie'); document.__defineSetter__('cookie', function (cookie) { if (cookie.indexOf('__jsl_clearance_s') != -1) { debugger; } org = cookie; }); document.__defineGetter__('cookie', function () { return org; }); })();
Hook 注入的方式有很多種,這裡通過 Fiddler 中的外掛進行注入,該外掛在 K 哥爬蟲公眾號中傳送【Fiddler 外掛】即可獲取:
同樣,設定完成後開啟抓包,清除網頁快取,重新整理網頁,頁面也能被順利斷住,上半部分就是我們通過 Hook 方式注入的程式碼段,顯示出了 Cookie 中 __jsl_clearance_s 關鍵字的值,下面框起來的部分格式化後會發現就是之前經過 OB 混淆的 JS 檔案內容:
除錯分析 JS 檔案
經過 Hook 之後,往前跟棧就能找到加密位置,我們知道 JavaScript 中一般使用 document.cookie 屬性來建立 、讀取、及刪除 cookie,經過分析 JS 檔案中的一些引數是在動態變換的,所以我們使用本地替換的方式固定一套下來,然後在該 JS 檔案中通過 CTRL + F 搜尋 document,只有一個,在第 558 行打斷點除錯,選中 _0x2a9a('0xdb', 'WGP(') + 'ie'
後滑鼠懸停會發現這裡就是 cookie 經過混淆後的樣式:
將等號後面的內容全部選中,滑鼠懸停在上面可以發現,這裡生成了 Cookie 中 __jsl_clearance_s 引數的值:
至此,我們知道了 Cookie 生成的位置,接下來就需要了解其加密邏輯和加密方法,然後通過 python 對其進行復現了,document 部分完整的程式碼如下:
document[_0x2a9a('0xdb', 'WGP(') + 'ie'] = _0x2228a0[_0x2a9a('0x52', '$hOV') + 'W'](_0x2228a0[_0x2a9a('0x3', '*hjw') + 'W'](_0x2228a0[_0x2a9a('0x10b', 'rV*F') + 'W'](_0x60274b['tn'] + '=' + _0x732635[0x0], _0x2228a0[_0x2a9a('0x3d', 'QRZ0') + 'q']), _0x60274b['vt']), _0x2228a0[_0x2a9a('0x112', ']A89') + 'x']);
OB 混淆相關內容可以觀看 K 哥往期文章,這裡等號後面的內容比較冗雜,其實我們想要獲取的是 jsl_clearance_s 引數的值,通過除錯可以看到其值由 0x60274b['tn'] + '=' + _0x732635[0x0]
生成:
由上可知 0x60274b['tn']
對應的部分是 __jsl_clearance_s,而其值是 0x732635[0x0]
,因此我們需要進一步跟蹤 0x732635
生成的位置,通過搜尋,在第 538 行可以找到其定義生成的位置,打斷點除錯可以看到, 0x732635[0x0]
其實就是取了 0x732635
陣列中的第一個位置的值:
我們來進一步分析 0x732635
後面程式碼各自的含義, _0x14e035(_0x60274b['ct'])
取的是 go 函式傳入的字典中 ct 引數的值:
go({ "bts": ["1658906704.293|0|YYj", "Jm5cKs%2B1v1GqTYAtpQjthM%3D"], "chars": "vUzQIgamgWnnFOJyKwXiGK", "ct": "690f55a681f304c95b35941b20538480", "ha": "md5", "tn": "__jsl_clearance_s", "vt": "3600", "wt": "1500" })
分析可知將 _0x60274b[_0x2a9a('0xf9', 'uUBi')]
陣列中的值按照某種規則進行拼接就是 __jsl_clearance_s 引數的值,並且 _0x2a9a('0xf9', 'uUBi')
對應字典中 bts 的值:
接下來先進一步跟蹤 _0x14e035
,可以發現其是個函式體,第 533 行 return 後的返回值就是 __jsl_clearance_s 引數的值:
在第 532 行打斷點除錯,能知道 hash 後 _0x2a7ea9
為 __jsl_clearance_s 引數的值:
hash( _0x2a7ea9 )
的值為 _0x2a7ea9
經過加密後的結果,在本例中,加密結果由 0-9 和 a-f 組成的 32 位字串,很明顯的 MD5 加密特徵,找個線上 MD5 加密進行驗證,發現是一致的,這裡加密的方法即 hash 方法不全是 MD5,多重新整理幾次發現會變化,實際上這個 hash 方法與原來呼叫 go 函式傳入的字典中 ha 的值相對應,ha 即加密演算法的型別,一共有 md5、sha1、sha256 三種,所以我們在本地處理的時候,要同時有這三種加密演算法,通過 ha 的值來匹配不同演算法。
進一步觀察這裡還有個 for 迴圈,分析發現每次迴圈 hash(_0x2a7ea9)
的值是動態變化的,原因是 _0x2a7ea9
的值是在動態變化的, _0x2a7ea9
中只有中間兩個字母在變化,不仔細看都看不出來:
跟進 _ 0x2a7ea9
生成的位置,分析可知 _0x2a7ea9
引數的值是由 0x5e5712
陣列的第一個值加上兩個字母再加上該陣列第二個值組成的結果:
中間兩個字母是將底下這段寫了兩次生成的,即 _0x60274b['chars']['substr'][1]
, 取字典中 chars 引數的一個字母,取了兩次,這裡通過 for 迴圈在不斷取這兩個值,直到其值加密後與 _0x56cbce
(即 ct)的值相等,則作為返回值傳遞給 __jsl_clearance_s
引數:
_0x60274b[_0x2a9a('0x45', 'XXkw') + 's'][_0x2a9a('0x5a', 'ZN)]') + 'tr'](_0x8164, 0x1)
0x56cbce 為 ct 的值:
最前面 0x2228a0[_0x2a9a('0x6d', 'U0Y3') + 's']
是個方法,我們進一步跟進過去,看這個方式裡面實現了什麼樣的邏輯:
其內容如下,可以看到這個方法返回的值是兩個相等的引數:
_0x560b67[_0x2a9a('0x15', 'NwFy') + 's'] = function(_0x4573a2, _0x3855be) { return _0x4573a2 == _0x3855be; };
模擬執行
綜上所述, _0x14e035
函式中的邏輯就是判斷 _0x2a7ea9
的值經過 hash
方法加密後的值,是否與 ct 的值相等,若相等則將返回值傳遞給 __jsl_clearance_s
引數,迴圈完後還未有成功匹配的值則會執行第 509 行提示失敗,傳入引數中 ha 的值是在變化的,即加密演算法也是在變化的,有三種加密方式 SHA1
、 SHA256
和 MD5
,我們可以扣下三種 hash
方法,也可以直接使用 crypto-js
庫來實現:
var CryptoJS = require('crypto-js'); function hash(type, value){ if(type == 'md5'){ return CryptoJS.MD5(value).toString(); } if(type == 'sha1'){ return CryptoJS.SHA1(value).toString(); } if(type == 'sha256'){ return CryptoJS.SHA256(value).toString(); } } var _0x2228a0 = { "mLZyz" : function(_0x435347, _0x8098d) { return _0x435347 < _0x8098d; }, "SsARo" : function(_0x286fd4, _0x10b2a6) { return _0x286fd4 + _0x10b2a6; }, "jfMAx" : function(_0x6b4da, _0x19c099) { return _0x6b4da + _0x19c099; }, "HWzBW" : function(_0x3b9d7f, _0x232017) { return _0x3b9d7f + _0x232017; }, "DRnYs" : function(_0x4573a2, _0x3855be) { return _0x4573a2 == _0x3855be; }, "ZJMqu" : function(_0x3af043, _0x1dbbb7) { return _0x3af043 - _0x1dbbb7; }, }; function cookies(_0x60274b){ var _0x34d7a8 = new Date(); function _0x14e035(_0x56cbce, _0x5e5712) { var _0x2d0a43 = _0x60274b['chars']['length']; for (var _0x212ce4 = 0x0; _0x212ce4 < _0x2d0a43; _0x212ce4++) { for (var _0x8164 = 0x0; _0x2228a0["mLZyz"](_0x8164, _0x2d0a43); _0x8164++) { var _0x2a7ea9 = _0x5e5712[0] + _0x60274b["chars"]["substr"](_0x212ce4, 1) + _0x60274b["chars"]["substr"](_0x8164, 1) + _0x5e5712[1]; if (_0x2228a0["DRnYs"](hash(_0x60274b['ha'], _0x2a7ea9), _0x56cbce)) { return [_0x2a7ea9, _0x2228a0["ZJMqu"](new Date(), _0x34d7a8)]; } } } } var _0x732635 = _0x14e035(_0x60274b['ct'], _0x60274b['bts']); return {'__jsl_clearance_s' : _0x732635[0]}; } // console.log(cookies({ // "bts": ["1658906704.293|0|YYj", "Jm5cKs%2B1v1GqTYAtpQjthM%3D"], // "chars": "vUzQIgamgWnnFOJyKwXiGK", // "ct": "690f55a681f304c95b35941b20538480", // "ha": "md5", // "tn": "__jsl_clearance_s", // "vt": "3600", // "wt": "1500" // })) // __jsl_clearance_s: '1658906704.293|0|YYjzaJm5cKs%2B1v1GqTYAtpQjthM%3D'
完整程式碼
bilibili 關注 K 哥爬蟲,小助理手把手影片教學: http://space.bilibili.com/16...
GitHub 關注 K 哥爬蟲,持續分享爬蟲相關程式碼!歡迎 star ! http://github.com/kgepachong/
以下只演示部分關鍵程式碼,不能直接執行!完整程式碼倉庫地址: http://github.com/kgepachong...
# ======================= # --*-- coding: utf-8 --*-- # @Time : 2022/7/27 # @Author : 微信公眾號:K哥爬蟲 # @FileName: jsl.py # @Software: PyCharm # ======================= import json import re import requests import execjs cookies = {} headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36" } url = "脫敏處理,完整程式碼關注 http://github.com/kgepachong/crawler/" def get_first_cookie(): global cookies resp_first = requests.get(url=url, headers=headers) # 獲取 cookie 值 __jsluid_s cookies.update(resp_first.cookies) # 獲取第一層響應內容, AAEncode 加密 content_first = re.findall('cookie=(.*?);location', resp_first.text)[0] jsl_clearance_s = execjs.eval(content_first).split(';')[0] # 獲取 cookie 值 __jsl_clearance_s cookies['__jsl_clearance_s'] = jsl_clearance_s.split("=")[1] def get_second_cookie(): global cookies # 通過攜帶 jsluid_s 和 jsl_clearance_s 值的 cookie 獲取第二層響應內容 resp_second = requests.get(url=url, headers=headers, cookies=cookies) # 獲取 go 字典引數 go_params = re.findall(';go\((.*?)\)</script>', resp_second.text)[0] params = json.loads(go_params) return params def get_third_cookie(): with open('jsl.js', 'r', encoding='utf-8') as f: jsl_js = f.read() params = get_second_cookie() # 傳入字典 third_cookie = execjs.compile(jsl_js).call('cookies', params) cookies.update(third_cookie) def main(): get_first_cookie() get_third_cookie() resp_third = requests.get(url=url, headers=headers, cookies=cookies) resp_third.encoding = 'utf-8' print(resp_third.text) if __name__ == '__main__': main()
- SegmentFault 2022 年社群週報 Vol.9
- 社群精選 | 不容錯過的9個冷門css屬性
- 2022最新版 Redis大廠面試題總結(附答案)
- 手寫一個mini版本的React狀態管理工具
- 【vue3原始碼】十三、認識Block
- 天翼雲全場景業務無縫替換至國產原生作業系統CTyunOS!
- JavaScript 設計模式 —— 代理模式
- MobTech簡訊驗證ApiCloud端SDK
- 以羊了個羊為例,淺談小程式抓包與響應報文修改
- 這幾種常見的 JVM 調優場景,你知道嗎?
- 聊聊如何利用管道模式來進行業務編排(下篇)
- 通用ORM的設計與實現
- 如此狂妄,自稱高效能佇列的Disruptor有啥來頭?
- 為什麼要學習GoF設計模式?
- 827. 最大人工島 : 簡單「並查集 列舉」運用題
- 介紹 Preact Signals
- 手把手教你如何使用 Timestream 實現物聯網時序資料儲存和分析
- 850. 矩形面積 II : 掃描線模板題
- Java 併發程式設計解析 | 基於JDK原始碼解析Java領域中的併發鎖,我們可以從中學習到什麼內容?
- 令人困惑的 Go time.AddDate