一日一技:协程与多进程的完美结合
摄影:产品经理
小甜点
我们知道,协程本质上是单线程单进程,通过充分利用IO等待时间来实现高并发。在IO等待时间之外的代码,还是串行运行的。因此,如果协程非常多,多少每个协程内部的串行代码运行时间超过了IO请求的等待时间,那么它的并发就会有一个上限。
举个例子,电饭煲煮饭,洗衣机洗衣服,热水壶烧水,他们都是启动设备以后就能自己运行,我们可以利用他们自己运行的时间,让这三件事情看起来几乎在同时进行。但如果除了这三件事情外,还有开电视,开空调,发微信……等等几十个事情。每个事情单独拿出来确实都只需要做个开头,剩下的就是等,但由于做这个开头也需要时间,因此把他们全部启动起来也要不少时间,你的效率还是被卡住。
现在,如果有两个人一起来做这些事情,那情况就不一样了。一个人煮饭和烧水,另一个人开洗衣机,开电视和空调。效率进一步提升。
这就是协程与多进程的结合,每个进程里面多个协程同时运行,充分利用CPU的每一个核心,又充分利用了IO等待时间,把CPU跑满,把网络带宽跑满。强强联合,速度更快。
有一个第三方库 aiomultiprocess
,让你能用几行代码就实现多进程与协程的组合。
首先使用pip安装:
python3 -m pip install aiomultiprocess
它的语法非常简单:
from aiomultiprocess import Pool
async with Pool() as pool:
results = await pool.map(协程, 参数列表)
只需要3行代码,它就会在你CPU上每个核启动一个进程,每个进程中不停启动协程。
我们来写一段实际代码:
import asyncio
import httpx
from aiomultiprocess import Pool
async def get(url):
async with httpx.AsyncClient() as client:
resp = await client.get(url)
return resp.text
async def main():
urls = [url1, url2, url3]
async with Pool() as pool:
async for result in pool.map(get, urls):
print(result) # 每一个URL返回的内容
if __name__ == '__main__':
asyncio.run(main())
之前我写异步协程文章的时候,有些人同学会问我,爬虫的速度真的那么重要吗?难道不是突破反爬虫最重要吗?
我的回答是,不要看到用aiohttp请求网址就觉得是做爬虫。在微服务里面,自己请求自己的HTTP接口,也需要使用httpx或者aiohttp。在这样的场景里面,速度就是非常的重要,有时候就是需要做到越快越好。
关于 aiomultiprocess
的更多使用,可以参阅它的 官方文档
[1]
.
参考文献
[1] 官方文档: https://aiomultiprocess.omnilib.dev/en/latest/guide.html
未闻 Code·知识星球开放啦!
一对一答疑爬虫相关问题
职业生涯咨询
面试经验分享
每周直播分享
......
未闻 Code·知识星球期待与你相见~
一二线大厂在职员工
十多年码龄的编程老鸟
国内外高校在读学生
中小学刚刚入门的新人
在 “未闻 Code技术交流群” 等你来!
入群方式:添加微信“mekingname”,备注“粉丝群”(谢绝广告党,非诚勿扰!)
- 一日一技:二分偏左,二分搜索在分布式系统里面也有用?
- 一日一技:使用Python翻译HTML中的文本字符串
- 一日一技:如何让自己的工具函数在Python全局可用?
- 一日一技:Any与TypeVar,让IDE的自动补全更好用
- 一日一技:用Python做游戏有多简单
- 一日一技:如何批量给PDF添加水印?
- 一日一技:抛掉JavaScript,用HTML和Python做网站
- 一个让我感到 "细思极恐" 的开源项目!
- 一日一技:FastAPI 接口限流
- 5 分钟,使用内网穿透快速实现远程手机桌面!
- Python Delorean 优秀的时间格式智能转换工具
- 写在公众号粉丝2w时
- 一日一技:协程与多进程的完美结合
- 一个 "丧心病狂" 的开源项目
- python中如何优雅的实现代码与敏感信息分离?
- Pandas 多进程处理数据,速度快了不少!
- 爬虫出海Step by Step(一)
- 一日一知:架构到底是什么?
- Python识别花卉种类,并自动整理分类!
- 这几个摸鱼神器,你怎么能不知道