看一看+小程序爬虫

wangkun aea7cb33a9 update 2 jaren geleden
chlsfiles aea7cb33a9 update 2 jaren geleden
logs 609cf71637 提交新的看一看的脚本 3 jaren geleden
main aea7cb33a9 update 2 jaren geleden
videos 609cf71637 提交新的看一看的脚本 3 jaren geleden
.gitignore 5a725bf81a first push 3 jaren geleden
README.md 0dfc343872 已下载视频表:增加站内视频链接;已下载视频信息同步至监控表 3 jaren geleden

README.md

看一看+小程序爬虫:推荐页

python==3.10.0 loguru==0.6.0 oss2==2.15.0 requests==2.27.1 urllib3==1.26.9

执行入口:

cd ./crawler-kanyikan-Windows

python3 main/run_XXX.py

==========2022/6/29===========

已下载视频表:预留前 5 列备用

已下载视频表增加列:站内视频链接

已下载视频,同步信息至监控表:https://w42nne6hzg.feishu.cn/sheets/shtcnlZWYazInhf7Z60jkbLRJyd?sheet=6fed97

==========2022/6/17===========

(recommend_feeds)0-24点

  • 7日内播放大于2万

  • 或播放大于15万

  • 新增:download_play_sendtime.py

  • 执行入口:run_download_play_sendtime.py

==========2022/6/16===========

  • 1.凌晨0点-15点 3日内播放大于2万 爬取

  • 2.晚上15点-24点 15万播放爬取

  • 视频发布7日内,播放量大于2万

  • 视频时长40秒以上

  • 分辨率 宽或高大于720

  • 分享量>0

  • 站内标题=看一看视频原标题

  • 站内封面图=看一看视频原封面图

==========2022/4/21===========

  • 视频发布7日内,播放量大于1万(当前时间 - 发布时间 <= 7 天)

  • 任务执行规则:

    1.凌晨0点-10点 7日内播放大于1万 爬取

    2.早上10点-20点 内容上升榜 爬取

    3.晚上20点-24点 15万播放爬取

==========2022/4/15===========

  • 视频发布3日内,播放量大于2万(当前时间 - 发布时间 <= 3 天)

  • 视频时长1分钟以上,10分钟以下

  • 分辨率 宽或高大于720

  • 分享量>0

  • 站内标题=看一看视频原标题

  • 站内封面图=看一看视频原封面图

  • 任务执行规则:

    1.凌晨0点-10点 3日内播放大于2万 爬取

    2.早上10点-20点 内容上升榜 爬取

    3.晚上20点-24点 15万播放爬取

==========2022/3/29===========

1.凌晨5:00 - 21:00,跑上升榜爬虫(循环隔 1 小时,检查播放量>=1000)

2.晚上21:00 - 5:00,跑播放量爬虫(播放量>=200000)

3.视频下载后,立即上传

==========2022/3/24===========

1.周一至周五,跑上升榜爬虫(循环隔 1 小时,检查播放量>=1000)

2.周六至周日,跑播放量爬虫(播放量>=200000)

3.视频下载后,立即上传

4.下周一时,暂停播放量爬虫,恢复上升榜爬虫

==========2022/3/15===========

1.拿到外网视频 list

2.去重

3.获取当前抓取时间、以及播放量、加上基本规则,存储本地:

3.1 分辨率,宽或者高 >= 720 或 无分辨

3.2 600 >= 时长 >= 60

4.循环隔 1 小时,检查播放量 >=1000(当前播放量 - 1 小时前的播放量),开始抓取。同时从本地存储中删除,加入到去重文本中。

5.下载总条数,先不限制

6.下载时间:早上 8 点 - 晚上 21 点截止

7.下载完成后立即上传