Keine Beschreibung

wangkun eb8f07db72 update vor 2 Jahren
logs 641e884653 first push vor 3 Jahren
main eb8f07db72 update vor 2 Jahren
videos 641e884653 first push vor 3 Jahren
.gitignore 99d84a9b42 push .gitignore vor 3 Jahren
README.md 98fe735bc2 update readme vor 3 Jahren

README.md

小年糕爬虫

python==3.10 loguru==0.6.0 oss2==2.15.0 requests==2.27.1 urllib3==1.26.9

执行入口:

1.cd ./crawler-xiaoniangao

2.python3 ./main/run_xx.py

==========2022/7/06===========

新增:用户主页抓取视频

1.发布时间 72 小时内

2.播放量 >= 2000

3.时长 >= 1 分钟

4.抓取间隔时长: 1 小时

==========2022/6/29===========

已下载视频表:预留前 5 列备用

已下载视频表增加列:站内视频链接

已下载视频,同步信息至监控表:https://w42nne6hzg.feishu.cn/sheets/shtcnlZWYazInhf7Z60jkbLRJyd?sheet=6fed97

==========2022/6/17==========

小时榜抓取基础规则:

1.时长>=40s

2.发布时间<=10天

3.播放量>=4000

4.过滤无效视频(标题、ID、时长等为空)

5.过滤敏感词库

6.从已下载表中去重

7.从小时榜表中去重

小时榜更新规则:

1.抓取时间<=2天

2.每天 10、15、20 点更新播放量的差值(上升榜中写入的数据:当前播放量 - 上个时间段的播放量)

小时榜下载规则:

1.抓取时间<=3天

2.视频时长>=40s

3.任意时间段播放量上升>=5000 或 连续两个时间段播放量上升>=2000

关注榜抓取基础规则:

1.时长>=40s

2.发布时间<=2天

3.播放量>=5000

关注榜下载规则:

1.过滤无效视频(标题、ID、时长等为空)

2.过滤敏感词库

3.从已下载表中去重

上传视频时,info.txt文件中的视频信息包含:

str(download_video_id)

str(download_video_title)

str(download_video_duration)

str(download_video_play_cnt)

str(download_video_comment_cnt)

str(download_video_like_cnt)

str(download_video_share_cnt)

str(download_video_resolution)

str(download_video_send_time)

str(download_user_name)

str(download_head_url)

str(download_video_url)

str(download_cover_url)

str(download_video_session)