# 微信公众号爬虫 #### 文档链接 * [Git](https://git.yishihui.com/Server/crawler_gongzhonghao.git) * [Jenkins](https://jenkins-on.yishihui.com/view/%E7%A5%A8%E5%9C%88-%E7%88%AC%E8%99%AB/job/spider-%E5%85%AC%E4%BC%97%E5%8F%B7-%E4%BF%A1%E6%AC%A3/) * [公众号_信欣_爬虫表](https://w42nne6hzg.feishu.cn/sheets/shtcna98M2mX7TbivTj9Sb7WKBN?sheet=47e39d) * [需求文档](https://w42nne6hzg.feishu.cn/docx/KUuydSH8uouFoUxzfYmcxYmQnsf) #### 软件架构 * python==3.10 * loguru==0.6.0 * oss2==2.15.0 * psutil==5.9.2 * requests==2.27.1 * selenium==4.4.3 * urllib3==1.26.9 * ffmpeg==1.4 #### 使用说明 * cd ./crawler_gongzhonghao && sh gongzhonghao.sh * 或者,Jenkins 重新构建 #### 更新记录 2023/01/17 * 对文章中全部视频进行抓取 * 根据视频 ID 去重的基础上,再进行视频标题相似度进行排重,>80%即认为重复内容 * 抓取完一个人,休眠 1 分钟;抓取完所有人,休眠 1 小时 * 站内承接账号[26117675, 26117676, 26117677, 26117678, 26117679, 26117680]