README.md 2.6 KB

小年糕爬虫

文档

  1. GIT: https://git.yishihui.com/Server/crawler-xiaoniangao.git
  2. 云文档: https://w42nne6hzg.feishu.cn/sheets/shtcnYxiyQ1wLklo1W5Kdqc9cGh?sheetyatRv2

软件架构

  1. ffmpeg1.4
  2. ffmpeg_python0.2.0
  3. loguru0.6.0
  4. oss22.15.0
  5. requests2.27.1
  6. urllib31.26.9
  7. python3.10

使用说明

  1. cd ./crawler_xiaoniangao
  2. python3 main/run_recommend.py
  3. python3 main/run_person.py
  4. python3 main/run_play.py

需求

2022/10/19

  1. 已下载视频分表: 小时级_已下载表、用户主页_已下载表、播放量_已下载表
  2. 三种规则分别增加报警监控

2022/9/9

  1. 增加已下载去重表:sheet=2zD8cv

2022/9/7

  1. 新增播放量下载规则
    1. 播放量>=10W
    2. 发布时间<=30天
    3. 运行时间 6 - 18 点

2022/9/5

  1. 修复个人主页抓取无权限写入飞书文档的问题
  2. 小时榜下载规则修改:播放量>=10W -> 播放量>=5W

2022/7/06 新增:用户主页抓取视频

  1. 发布时间 72 小时内
  2. 播放量 > 2000
  3. 时长 > 1 分钟
  4. 抓取间隔时长: 1 小时

2022/6/29

  1. 已下载视频表:预留前 5 列备用
  2. 已下载视频表增加列:站内视频链接
  3. 已下载视频,同步信息至监控表:https://w42nne6hzg.feishu.cn/sheets/shtcnlZWYazInhf7Z60jkbLRJyd?sheet6fed97

2022/6/17

  1. 小时榜抓取基础规则
    1. 时长>40s
    2. 发布时间<10天
    3. 播放量>4000
    4. 过滤无效视频(标题、ID、时长等为空)
    5. 过滤敏感词库
    6. 从已下载表中去重
    7. 从小时榜表中去重
  2. 小时榜更新规则:
    1. 抓取时间<2天
    2. 每天 10、15、20 点更新播放量的差值(上升榜中写入的数据:当前播放量 - 上个时间段的播放量)
  3. 小时榜下载规则
    1. 抓取时间<3天
    2. 视频时长>40s
    3. 任意时间段播放量上升>5000 或 连续两个时间段播放量上升>2000
  4. 关注榜抓取基础规则
    1. 时长>40s
    2. 发布时间<2天
    3. 播放量>5000
  5. 关注榜下载规则
    1. 过滤无效视频(标题、ID、时长等为空)
    2. 过滤敏感词库
    3. 从已下载表中去重
  6. 上传视频时,info.txt文件中的视频信息包含
    1. str(download_video_id)
    2. str(download_video_title)
    3. str(download_video_duration)
    4. str(download_video_play_cnt)
    5. str(download_video_comment_cnt)
    6. str(download_video_like_cnt)
    7. str(download_video_share_cnt)
    8. str(download_video_resolution)
    9. str(download_video_send_time)
    10. str(download_user_name)
    11. str(download_head_url)
    12. str(download_video_url)
    13. str(download_cover_url)
    14. str(download_video_session)