微信公众号爬虫

wangkun 2407e99585 update %!s(int64=2) %!d(string=hai) anos
main 2407e99585 update %!s(int64=2) %!d(string=hai) anos
.gitignore e4e8803494 push .gitignore %!s(int64=2) %!d(string=hai) anos
README.md 2407e99585 update %!s(int64=2) %!d(string=hai) anos

README.md

微信公众号爬虫

  1. git:https://git.yishihui.com/Server/crawler_gzh.git
  2. 飞书:https://w42nne6hzg.feishu.cn/sheets/shtcnexNXnpDLHhARw0QdiwbYuA

软件架构

  1. loguru==0.6.0
  2. oss2==2.15.0
  3. requests==2.27.1
  4. urllib3==1.26.9
  5. python==3.10

使用说明

  1. cd ./crawler_gzh
  2. python3 main/run_gzh.py

需求列表

2022/9/23

  1. 账号爬取视频时间要求:近3天发布视频
  2. 只抓1条视频/人

2022/9/22

  1. 账号爬取休眠时间调整:每次间隔休眠时间3--15分钟
  2. 账号爬取视频时间要求:近15天发布视频

2022/8/17

  1. 抓取用户主页 2021 年之后发布的视频
  2. 每个用户每天抓取 10 条

2022/8/4

  1. 任务开始时间: 每天早上8点-晚上21点
  2. 抓取规则:
    1. 视频时长1分钟以上,20分钟以下
    2. 站内标题=公众号 视频原标题
    3. 站内封面图=公众号 视频原封面图
  3. 站内承接:
    1. 每日入库100条视频
    2. 视频随机分配到5个虚拟账号, uid列表:[20631273, 20631274, 20631275, 20631276, 20631277]