還在用requests寫爬蟲嗎?這個庫效率提高一倍!
最近公司 Python 後端專案進行重構,整個後端邏輯基本都變更為採用"非同步"協程的方式實現。看著滿螢幕經過 async await(協程在 Python 中的實現)修飾的程式碼,我頓時感到一臉懵逼,不知所措。
雖然之前有了解過"協程"是什麼東西,但並沒有深入探索,於是正好藉著這次機會可以好好學習一下。
什麼是協程?
簡單來說,協程是一種基於執行緒之上,但又比執行緒更加輕量級的存在。對於系統核心來說,協程具有不可見的特性,所以這種由 程式設計師自己寫程式來管理 的輕量級執行緒又常被稱作 "使用者空間執行緒"。
協程比多執行緒好在哪呢?
1. 執行緒的控制權在作業系統手中,而 協程的控制權完全掌握在使用者自己手中,因此利用協程可以減少程式執行時的上下文切換,有效提高程式執行效率。
2. 建立執行緒時,系統預設分配給執行緒的 棧 大小是 1 M,而協程更輕量,接近 1 K 。因此可以在相同的記憶體中開啟更多的協程。
3. 由於協程的本質不是多執行緒而是單執行緒,所以不需要多執行緒的鎖機制。因為只有一個執行緒,也不存在同時寫變數而引起的衝突。在協程中控制共享資源不需要加鎖,只需要判斷狀態即可。所以協程的執行效率比多執行緒高很多,同時也有效避免了多執行緒中的競爭關係。
協程的適用 & 不適用場景
適用場景:協程適用於被阻塞的,且需要大量併發的場景。
不適用場景:協程不適用於存在大量計算的場景(因為協程的本質是單執行緒來回切換),如果遇到這種情況,還是應該使用其他手段去解決。
初探非同步 http 框架 httpx
至此我們對 "協程" 應該有了個大概的瞭解,但故事說到這裡,相信有朋友還是滿臉疑問:"協程" 對於介面測試有什麼幫助呢?不要著急,答案就在下面。
相信用過 Python 做介面測試的朋友都對 requests 庫不陌生。requests 中實現的 http 請求是同步請求,但其實基於 http 請求 IO 阻塞的特性,非常適合用協程來實現 "非同步" http 請求從而提升測試效率。
相信早就有人注意到了這點,於是在 Github 經過了一番探索後,果不其然,最終尋找到了支援協程 "非同步" 呼叫 http 的開源庫: httpx
什麼是 httpx
httpx 是一個幾乎繼承了所有 requests 的特性並且支援 "非同步" http 請求的開源庫。簡單來說,可以認為 httpx 是強化版 requests。
下面大家可以跟著我一起見識一下 httpx 的強大
安裝
httpx 的安裝非常簡單,在 Python 3.6 以上的環境執行
pip install httpx
最佳實踐
俗話說得好,效率決定成敗。我分別使用了 httpx 非同步 和 同步 的方式對批量 http 請求進行了耗時比較,來一起看看結果吧~
首先來看看同步 http 請求的耗時表現:
import asyncio import httpx import threading import time def sync_main(url, sign): response = httpx.get(url).status_code print(f'sync_main: {threading.current_thread()}: {sign}2 + 1{response}') sync_start = time.time() [sync_main(url='http://www.baidu.com', sign=i) for i in range(200)] sync_end = time.time() print(sync_end - sync_start)
程式碼比較簡單,可以看到在 sync_main 中則實現了同步 http 訪問百度 200 次。
執行後輸出如下(截取了部分關鍵輸出...):
sync_main: <_MainThread(MainThread, started 4471512512)>: 192: 200 sync_main: <_MainThread(MainThread, started 4471512512)>: 193: 200 sync_main: <_MainThread(MainThread, started 4471512512)>: 194: 200 sync_main: <_MainThread(MainThread, started 4471512512)>: 195: 200 sync_main: <_MainThread(MainThread, started 4471512512)>: 196: 200 sync_main: <_MainThread(MainThread, started 4471512512)>: 197: 200 sync_main: <_MainThread(MainThread, started 4471512512)>: 198: 200 sync_main: <_MainThread(MainThread, started 4471512512)>: 199: 200 16.56578803062439
可以看到在上面的輸出中, 主執行緒沒有進行切換(因為本來就是單執行緒啊喂!)請求按照順序執行(因為是同步請求)。
程式執行共耗時 16.6 秒
下面我們試試 "非同步" http 請求:
import asyncio import httpx import threading import time client = httpx.AsyncClient() async def async_main(url, sign): response = await client.get(url) status_code = response.status_code print(f'async_main: {threading.current_thread()}: {sign}:{status_code}') loop = asyncio.get_event_loop() tasks = [async_main(url='http://www.baidu.com', sign=i) for i in range(200)] async_start = time.time() loop.run_until_complete(asyncio.wait(tasks)) async_end = time.time() loop.close() print(async_end - async_start)
上述程式碼在 async_main 中用 async await 關鍵字實現了"非同步" http,通過 asyncio ( 非同步 io 庫請求百度首頁 200 次並打印出了耗時。
執行程式碼後可以看到如下輸出(截取了部分關鍵輸出...)
async_main: <_MainThread(MainThread, started 4471512512)>: 56: 200 async_main: <_MainThread(MainThread, started 4471512512)>: 99: 200 async_main: <_MainThread(MainThread, started 4471512512)>: 67: 200 async_main: <_MainThread(MainThread, started 4471512512)>: 93: 200 async_main: <_MainThread(MainThread, started 4471512512)>: 125: 200 async_main: <_MainThread(MainThread, started 4471512512)>: 193: 200 async_main: <_MainThread(MainThread, started 4471512512)>: 100: 200 4.518340110778809
可以看到順序雖然是亂的(56,99,67...) (這是因為程式在協程間不停切換) 但是主執行緒並沒有切換 (協程本質還是單執行緒 )。
程式共耗時 4.5 秒
比起同步請求耗時的 16.6 秒 縮短了接近 73 %!
俗話說得好,一步快,步步快。 在耗時方面,"非同步" http 確實比同步 http 快了很多。當然,"協程" 不僅僅能在請求效率方面賦能介面測試, 掌握 "協程"後,相信小夥伴們的技術水平也能提升一個臺階,從而設計出更優秀的測試框架。
- 如何最簡單、通俗地理解Python模組?
- GitHub 新增工具以簡化軟體開發管理
- 測試自動化的六大原則
- Google 的 C 實驗性繼任者 Carbon 是否值得學習
- 一文了解位元組跳動“埋點驗證平臺”
- 京東APP OpenHarmony 化的跨端開發探索
- C語言庫函式-printf()
- 為什麼策略梯度法在協作性MARL中如此高效?
- 2022年值得推薦的React庫!
- 八個拿來即用的Python自動化指令碼!
- 大檔案上傳時如何做到 秒傳?
- 如何使用 Dockerfile 建立自定義 Docker 映象
- 一文掌握 vue3.2 setup 語法糖
- 分散式鎖工具:Redisson
- 開發一套高容錯分散式系統
- 實測,iOS15.4.1和iOS15.6差距有多大?是否值得升級?
- 速度起飛!替代 pandas 的八個神庫
- 15歲開發黑客工具,24歲被捕,軟體賣給上萬人獲利30萬美元,大部分用於買外賣
- IPFS成為釣魚攻擊的溫床
- 如何在 Win上寫 Python 程式碼?優秀攻略來襲!