|
il y a 3 ans | |
---|---|---|
chlsfiles | il y a 3 ans | |
logs | il y a 3 ans | |
main | il y a 3 ans | |
videos | il y a 3 ans | |
.gitignore | il y a 3 ans | |
README.md | il y a 3 ans |
看一看+小程序爬虫:推荐页
python==3.10.0 loguru==0.6.0 oss2==2.15.0 requests==2.27.1 urllib3==1.26.9
执行入口: cd ./crawler-kanyikan-Windows python3 main/run.py
==========2022/4/21===========
==========2022/4/15===========
==========2022/3/29=========== 1.凌晨5:00 - 21:00,跑上升榜爬虫(循环隔 1 小时,检查播放量>=1000) 2.晚上21:00 - 5:00,跑播放量爬虫(播放量>=200000) 3.视频下载后,立即上传
==========2022/3/24=========== 1.周一至周五,跑上升榜爬虫(循环隔 1 小时,检查播放量>=1000) 2.周六至周日,跑播放量爬虫(播放量>=200000) 3.视频下载后,立即上传 4.下周一时,暂停播放量爬虫,恢复上升榜爬虫
==========2022/3/15=========== 1.拿到外网视频 list 2.去重 3.获取当前抓取时间、以及播放量、加上基本规则,存储本地:
3.1 分辨率,宽或者高 >= 720 或 无分辨
3.2 600 >= 时长 >= 60
4.循环隔 1 小时,检查播放量 >=1000(当前播放量 - 1 小时前的播放量),开始抓取。同时从本地存储中删除,加入到去重文本中。 5.下载总条数,先不限制 6.下载时间:早上 8 点 - 晚上 21 点截止 7.下载完成后立即上传