快手小程序的爬虫

wangkun bd23e49b39 update 2 years ago
main bd23e49b39 update 2 years ago
.gitignore 6dda8b1f2b first push 3 years ago
README.md ee3f5c47e0 update 2 years ago
kuaishou.sh 3c72ef03db update 2 years ago

README.md

快手小程序的爬虫

  1. https://git.yishihui.com/Server/crawler-kuaishou.git
  2. https://w42nne6hzg.feishu.cn/sheets/shtcnICEfaw9llDNQkKgdymM1xf

软件架构

  1. loguru==0.6.0
  2. oss2==2.15.0
  3. requests==2.27.1
  4. urllib3==1.26.9
  5. python==3.10.0

使用说明

  1. cd ./crawler_kuaishou
  2. python3 main/run_xxx.py

需求

2022/9/29

  1. 关注榜抓取 100 条/天
  2. 关注榜抓取 1 条/人/次

2022/9/16

  1. 快手关注列表爬取门槛调整:
    1. 1min以上改为30s以上
    2. 点赞量10000+改为5000+

2022/8/19

  1. 抓取标题字数限制:40 字

2022/7/8

  1. 已下载视频表,增加:站内视频链接
  2. 合并脚本:推荐榜 / 关注榜
  3. 关注榜修改:从用户主页下载
  4. 抓取/下载规则:点赞 >= 1W 或分享 >= 1K
  5. 发布时间: 7 天内

2022/6/8

  1. 按照关注账号进行抓取
    1. 任务开始时间:循环抓取,每次间隔 1 小时
    2. 抓取规则:
      1. 视频发布时间 72 小时内
      2. 视频播放量点赞量5万+ ,分享量2000+
      3. 视频时长1分钟以上,10分钟以下
      4. 视频分辨率720以上
      5. 站内标题=快手视频原标题 (需要过滤掉标题中的话题# #和@)
      6. 站内封面图=快手视频原封面图
    3. 站内承接:
      1. 每日入库100条视频(优先爬取最新达到标准的视频)
      2. 视频随机分配到10个虚拟账号。uid列表:快手爬虫账号
    4. 特别注意:
      1. 视频需要排重,已经抓取过得视频,不要重复抓取
      2. 需要对视频库进行持续扫描:如1条视频上周未达到5万+点赞,本周达到了5万点赞,则进行抓取。

2022/4/15

  1. 按照数据指标抓取

    1. 任务开始时间: 每天早上8点-晚上22点
    2. 抓取规则:
      1. 视频播放量点赞量5万+ ,分享量2000+
      2. 视频时长1分钟以上,10分钟以下
      3. 视频分辨率720以上
      4. 站内标题=快手视频原标题 (需要过滤掉标题中的话题# #)
      5. 站内封面图=快手视频原封面图
    3. 站内承接:
      1. 每日入库200条视频
      2. 视频随机分配到10个虚拟账号。
    4. 特别注意:

      1. 视频需要排重,已经抓取过得视频,不要重复抓取
      2. 需要对视频库进行持续扫描:如1条视频上周未达到5万+点赞,本周达到了5万点赞,则进行抓取。
    5. 新增爬虫视频标题过滤词

      1. 集结吧光合创作者、电影解说、快来露两手、分享家常美食教程、光合作者助手、创作者中心、创作者学院、娱乐星熠计划、解说电影、电影剪辑、放映室、老剧、影视剪辑、精彩片段、冬日影娱大作战、春日追剧计划单、影视解说、中视频影视混剪计划、众志成城共抗疫情、我在追好剧、娱乐星灿计划、电影、电视剧、毛泽东、毛主席、周恩来、林彪、习近平、习大大、彭丽媛、怀旧经典影视