小年糕爬虫 python==3.10 loguru==0.6.0 oss2==2.15.0 requests==2.27.1 urllib3==1.26.9 执行入口: 1.cd ./crawler-xiaoniangao 2.python3 ./main/run_xx.py ==========2022/6/29=========== 已下载视频表:预留前 5 列备用 已下载视频表增加列:站内视频链接 已下载视频,同步信息至监控表:https://w42nne6hzg.feishu.cn/sheets/shtcnlZWYazInhf7Z60jkbLRJyd?sheet=6fed97 ==========2022/6/17========== 小时榜抓取基础规则: 1.时长>=40s 2.发布时间<=10天 3.播放量>=4000 4.过滤无效视频(标题、ID、时长等为空) 5.过滤敏感词库 6.从已下载表中去重 7.从小时榜表中去重 小时榜更新规则: 1.抓取时间<=2天 2.每天 10、15、20 点更新播放量的差值(上升榜中写入的数据:当前播放量 - 上个时间段的播放量) 小时榜下载规则: 1.抓取时间<=3天 2.视频时长>=40s 3.任意时间段播放量上升>=5000 或 连续两个时间段播放量上升>=2000 关注榜抓取基础规则: 1.时长>=40s 2.发布时间<=2天 3.播放量>=5000 关注榜下载规则: 1.过滤无效视频(标题、ID、时长等为空) 2.过滤敏感词库 3.从已下载表中去重 上传视频时,info.txt文件中的视频信息包含: str(download_video_id) str(download_video_title) str(download_video_duration) str(download_video_play_cnt) str(download_video_comment_cnt) str(download_video_like_cnt) str(download_video_share_cnt) str(download_video_resolution) str(download_video_send_time) str(download_user_name) str(download_head_url) str(download_video_url) str(download_cover_url) str(download_video_session)