# 小年糕爬虫 #### 文档 1. GIT: https://git.yishihui.com/Server/crawler-xiaoniangao.git 2. 云文档: https://w42nne6hzg.feishu.cn/sheets/shtcnYxiyQ1wLklo1W5Kdqc9cGh?sheetyatRv2 #### 软件架构 1. ffmpeg1.4 2. ffmpeg_python0.2.0 3. loguru0.6.0 4. oss22.15.0 5. requests2.27.1 6. urllib31.26.9 7. python3.10 #### 使用说明 1. cd ./crawler_xiaoniangao 2. python3 main/run_recommend.py 3. python3 main/run_person.py 4. python3 main/run_play.py #### 需求 2022/10/19 1. 已下载视频分表: 小时级_已下载表、用户主页_已下载表、播放量_已下载表 2. 三种规则分别增加报警监控 2022/9/9 1. 增加已下载去重表:sheet=2zD8cv 2022/9/7 1. 新增播放量下载规则 1. 播放量>=10W 2. 发布时间<=30天 3. 运行时间 6 - 18 点 2022/9/5 1. 修复个人主页抓取无权限写入飞书文档的问题 2. 小时榜下载规则修改:播放量>=10W -> 播放量>=5W 2022/7/06 新增:用户主页抓取视频 1. 发布时间 72 小时内 2. 播放量 > 2000 3. 时长 > 1 分钟 4. 抓取间隔时长: 1 小时 2022/6/29 1. 已下载视频表:预留前 5 列备用 2. 已下载视频表增加列:站内视频链接 3. 已下载视频,同步信息至监控表:https://w42nne6hzg.feishu.cn/sheets/shtcnlZWYazInhf7Z60jkbLRJyd?sheet6fed97 2022/6/17 1. 小时榜抓取基础规则 1. 时长>40s 2. 发布时间<10天 3. 播放量>4000 4. 过滤无效视频(标题、ID、时长等为空) 5. 过滤敏感词库 6. 从已下载表中去重 7. 从小时榜表中去重 2. 小时榜更新规则: 1. 抓取时间<2天 2. 每天 10、15、20 点更新播放量的差值(上升榜中写入的数据:当前播放量 - 上个时间段的播放量) 3. 小时榜下载规则 1. 抓取时间<3天 2. 视频时长>40s 3. 任意时间段播放量上升>5000 或 连续两个时间段播放量上升>2000 4. 关注榜抓取基础规则 1. 时长>40s 2. 发布时间<2天 3. 播放量>5000 5. 关注榜下载规则 1. 过滤无效视频(标题、ID、时长等为空) 2. 过滤敏感词库 3. 从已下载表中去重 6. 上传视频时,info.txt文件中的视频信息包含 1. str(download_video_id) 2. str(download_video_title) 3. str(download_video_duration) 4. str(download_video_play_cnt) 5. str(download_video_comment_cnt) 6. str(download_video_like_cnt) 7. str(download_video_share_cnt) 8. str(download_video_resolution) 9. str(download_video_send_time) 10. str(download_user_name) 11. str(download_head_url) 12. str(download_video_url) 13. str(download_cover_url) 14. str(download_video_session)