微信公众号爬虫
- git:https://git.yishihui.com/Server/crawler_gzh.git
- 飞书:https://w42nne6hzg.feishu.cn/sheets/shtcnexNXnpDLHhARw0QdiwbYuA
软件架构
- loguru==0.6.0
- oss2==2.15.0
- requests==2.27.1
- urllib3==1.26.9
- python==3.10
使用说明
- cd ./crawler_gzh
- python3 main/run_gzh.py
需求列表
2022/9/26
- 修改抓取规则,一个个用户进行抓取/下载/上传
2022/9/23
- 账号爬取视频时间要求:近3天发布视频
- 只抓1条视频/人
2022/9/22
- 账号爬取休眠时间调整:每次间隔休眠时间3--15分钟
- 账号爬取视频时间要求:近15天发布视频
2022/8/17
- 抓取用户主页 2021 年之后发布的视频
- 每个用户每天抓取 10 条
2022/8/4
- 任务开始时间: 每天早上8点-晚上21点
- 抓取规则:
- 视频时长1分钟以上,20分钟以下
- 站内标题=公众号 视频原标题
- 站内封面图=公众号 视频原封面图
- 站内承接:
- 每日入库100条视频
- 视频随机分配到5个虚拟账号, uid列表:[20631273, 20631274, 20631275, 20631276, 20631277]