如何根据抓取数据量确定服务器配置和ip代理配置?
1
爬虫如何根据现在抓取数据量确定服务器配置和ip代理配置?
点击空白处查看答案
这取决于并发量、数据量、网站反爬严不严格以及代码质量。 理论上讲,服务器网络io快就可以了,对内存和cpu要求不高。 如果钱多,那肯定是代理ip越多越好。如果钱少,那你要试探看看同一个IP访问频率到多少的时候网站就封你。然后代理ip的数量要比这个数字高一点点。
2
提问:Flask 启动后,客户端进行访问,当响应数据正常返回后,内存并没有被释放,随着客户端请求次数增多,最终 Flask 进程会因为OOM被杀掉。为什么 Flask 返回响应之后没有释放内存呢?有什么方法可以解决这个问题么?
点击空白处查看答案
你的gc.collect没有用。因为aaa变量还存在引用,不会被回收。我没有遇到过这种情况,怀疑是其他地方的问题。
3
南哥,请问使用httpx访问请求,可不可以设置请求超时重试次数的?比如说设定3次,超时3次才报错误。
点击空白处查看答案
它默认是没有这个功能的,需要你自己单独try一下。 有两个方法。一、可以自己写一个装饰器来重试;二、看这篇文章: 一日一技:巧用or关键字实现多重条件判断
4
南哥, 我想问下,你们在生产环境中遇到js特别难得加密是rpc 还是去逆向,还是其他解决方法。如果想提速怎么做?
点击空白处查看答案
既然是特别难,那就用模拟浏览器访问网站,但通过中间人攻击收集数据,如果想提速就去模拟浏览器集群,至于哪里可以学到这方面知识, 我推荐我的爬虫书
5
提问:南哥,请教一个爬虫报错问题,是我用playwright在百度搜索关键词时遇到的。
点击空白处查看答案
你打开网页以后,先停一会,再输入
6
两数之和。给定一个整数数组 nums 和一个整数目标值 target,请你在该数组中找出 和为目标值 target 的那 两个 整数,并返回它们的数组下标。你可以假设每种输入只会对应一个答案。但是,数组中同一个元素在答案里不能重复出现。你可以按任意顺序返回答案。我参考人家java写的,但这速度,为什么人家这么快,轮到我这么慢?一般快是什么思路的啊?
点击空白处查看答案
遍历列表,生成一个字典。字典的key是列表里面的元素,值是这个元素在原列表中的位置。然后遍历原列表里面每一个数,用target减这个数,看看差在不在字典里面。
7
提问:虽然我知道将第5行代码改为第6行代码可达到预期效果,但我不明白xxx为什么会随着t的变更而变更?
点击空白处查看答案
第五行是引用传递,他们对应的是同一个列表。第六行是复制了列表里面的值,使用了一个新的内存区域,因此互不影响。你可以对比一下id(xxx)和 id(t)是否一样来看他们是不是同一个内存区域。
8
请教下南哥,我用ffmpeg合并srt字幕和视频,在centos上报错,请教下是啥原因?同样的命令我在mac上测试是没问题的
点击空白处查看答案
我怀疑是centos版本的ffmpeg的命令参数跟mac版本不一样导致的。你执行ffmpeg -h看看文档。
未闻 Code·知识星球开放啦!
一对一答疑爬虫相关问题
职业生涯咨询
面试经验分享
每周直播分享
......
未闻 Code·知识星球期待与你相见~
一二线大厂在职员工
十多年码龄的编程老鸟
国内外高校在读学生
中小学刚刚入门的新人
在 “未闻 Code技术交流群” 等你来!
入群方式:添加微信“mekingname”,备注“粉丝群”(谢绝广告党,非诚勿扰!)
- 一日一技:如何批量给PDF添加水印?
- 一日一技:抛掉JavaScript,用HTML和Python做网站
- 一个让我感到 "细思极恐" 的开源项目!
- 一日一技:FastAPI 接口限流
- 5 分钟,使用内网穿透快速实现远程手机桌面!
- Python Delorean 优秀的时间格式智能转换工具
- 写在公众号粉丝2w时
- 一日一技:协程与多进程的完美结合
- 一个 "丧心病狂" 的开源项目
- python中如何优雅的实现代码与敏感信息分离?
- Pandas 多进程处理数据,速度快了不少!
- 爬虫出海Step by Step(一)
- 一日一知:架构到底是什么?
- Python识别花卉种类,并自动整理分类!
- 这几个摸鱼神器,你怎么能不知道
- FoolNLTK — 简单好用的中文NLP工具包
- 一日一知:国内爬虫开发人员的未来
- 我写论文时发现了哪些非常神的网站?
- Python 编程的最好搭档—VSCode 详细指南
- 一日一技:急速搭建问答搜索引擎