公众号_信欣_爬虫
微信公众号爬虫
文档链接
软件架构
- python==3.10
- loguru==0.6.0
- oss2==2.15.0
- psutil==5.9.2
- requests==2.27.1
- selenium==4.4.3
- urllib3==1.26.9
- ffmpeg==1.4
使用说明
- cd ./crawler_gongzhonghao && sh gongzhonghao.sh
- 或者,Jenkins 重新构建
更新记录
2023/01/17
- 对文章中全部视频进行抓取
- 根据视频 ID 去重的基础上,再进行视频标题相似度进行排重,>80%即认为重复内容
- 抓取完一个人,休眠 1 分钟;抓取完所有人,休眠 1 小时
- 站内承接账号[26117675, 26117676, 26117677, 26117678, 26117679, 26117680]