小年糕爬虫
文档
- GIT: https://git.yishihui.com/Server/crawler-xiaoniangao.git
- 云文档: https://w42nne6hzg.feishu.cn/sheets/shtcnYxiyQ1wLklo1W5Kdqc9cGh?sheetyatRv2
软件架构
- ffmpeg1.4
- ffmpeg_python0.2.0
- loguru0.6.0
- oss22.15.0
- requests2.27.1
- urllib31.26.9
- python3.10
使用说明
- cd ./crawler_xiaoniangao
- python3 main/run_recommend.py
- python3 main/run_person.py
- python3 main/run_play.py
需求
2022/10/19
- 已下载视频分表: 小时级_已下载表、用户主页_已下载表、播放量_已下载表
- 三种规则分别增加报警监控
2022/9/9
- 增加已下载去重表:sheet=2zD8cv
2022/9/7
- 新增播放量下载规则
- 播放量>=10W
- 发布时间<=30天
- 运行时间 6 - 18 点
2022/9/5
- 修复个人主页抓取无权限写入飞书文档的问题
- 小时榜下载规则修改:播放量>=10W -> 播放量>=5W
2022/7/06 新增:用户主页抓取视频
- 发布时间 72 小时内
- 播放量 > 2000
- 时长 > 1 分钟
- 抓取间隔时长: 1 小时
2022/6/29
- 已下载视频表:预留前 5 列备用
- 已下载视频表增加列:站内视频链接
- 已下载视频,同步信息至监控表:https://w42nne6hzg.feishu.cn/sheets/shtcnlZWYazInhf7Z60jkbLRJyd?sheet6fed97
2022/6/17
- 小时榜抓取基础规则
- 时长>40s
- 发布时间<10天
- 播放量>4000
- 过滤无效视频(标题、ID、时长等为空)
- 过滤敏感词库
- 从已下载表中去重
- 从小时榜表中去重
- 小时榜更新规则:
- 抓取时间<2天
- 每天 10、15、20 点更新播放量的差值(上升榜中写入的数据:当前播放量 - 上个时间段的播放量)
- 小时榜下载规则
- 抓取时间<3天
- 视频时长>40s
- 任意时间段播放量上升>5000 或 连续两个时间段播放量上升>2000
- 关注榜抓取基础规则
- 时长>40s
- 发布时间<2天
- 播放量>5000
- 关注榜下载规则
- 过滤无效视频(标题、ID、时长等为空)
- 过滤敏感词库
- 从已下载表中去重
- 上传视频时,info.txt文件中的视频信息包含
- str(download_video_id)
- str(download_video_title)
- str(download_video_duration)
- str(download_video_play_cnt)
- str(download_video_comment_cnt)
- str(download_video_like_cnt)
- str(download_video_share_cnt)
- str(download_video_resolution)
- str(download_video_send_time)
- str(download_user_name)
- str(download_head_url)
- str(download_video_url)
- str(download_cover_url)
- str(download_video_session)