知乎爬虫
- git: https://git.yishihui.com/Server/crawler_zhihu.git
- feishu: https://w42nne6hzg.feishu.cn/sheets/shtcnkGPBmGsjaqapgzouuj8MXe
软件架构
- python==3.10
- Appium_Python_Client==2.6.1
- loguru==0.6.0
- oss2==2.15.0
- psutil==5.9.2
- requests==2.27.1
- selenium==4.4.3
- urllib3==1.26.9
使用说明
- cd ./crawler_zhihu
- python3 ./main/run_xx.py
需求
2022/11/02
- 热榜:
- 发布时间<180天
- 视频播放量>3w
- 运行时间:
- 每页抓取完,休眠 1 分钟;
- 24 小时持续运行。
- 定向榜:
- 发布时间<30天
- 视频时长1分钟以上
- 运行时间:
- 每个用户主页抓取完,休眠 1 分钟;
- 所有用户主页抓取完,休眠 1 小时;
- 24 小时持续运行。
- 增加报警
2022/11/01
- 热榜规则:
- 运行时间: 08:00:00 - 22:59:59
- 发布时间<30天
- 视频播放量>1w
- 视频时长1分钟以上
- 站内标题=知乎 视频原标题
- 站内封面图=知乎 视频原封面图
- 站内承接账号: [20631383, 20631384, 20631385, 20631386, 20631387]