抓取规则.txt 1.9 KB

12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849
  1. ==========2022/4/21===========
  2. - 视频发布7日内,播放量大于1万(当前时间 - 发布时间 <= 7 天)
  3. - 任务执行规则:
  4. 1.凌晨0点-10点 7日内播放大于1万 爬取
  5. 2.早上10点-20点 内容上升榜 爬取
  6. 3.晚上20点-24点 15万播放爬取
  7. ==============================
  8. ==========2022/4/15===========
  9. - 视频发布3日内,播放量大于2万(当前时间 - 发布时间 <= 3 天)
  10. - 视频时长1分钟以上,10分钟以下
  11. - 分辨率 宽或高大于720
  12. - 分享量>0
  13. - 站内标题=看一看视频原标题
  14. - 站内封面图=看一看视频原封面图
  15. - 任务执行规则:
  16. 1.凌晨0点-10点 3日内播放大于2万 爬取
  17. 2.早上10点-20点 内容上升榜 爬取
  18. 3.晚上20点-24点 15万播放爬取
  19. ==============================
  20. ==========2022/3/29===========
  21. 1.凌晨5:00 - 21:00,跑上升榜爬虫(循环隔 1 小时,检查播放量>=1000)
  22. 2.晚上21:00 - 5:00,跑播放量爬虫(播放量>=200000)
  23. 3.视频下载后,立即上传
  24. ==============================
  25. ==========2022/3/24===========
  26. 1.周一至周五,跑上升榜爬虫(循环隔 1 小时,检查播放量>=1000)
  27. 2.周六至周日,跑播放量爬虫(播放量>=200000)
  28. 3.视频下载后,立即上传
  29. 4.下周一时,暂停播放量爬虫,恢复上升榜爬虫
  30. ==============================
  31. ==========2022/3/15===========
  32. 1.拿到外网视频 list
  33. 2.去重
  34. 3.获取当前抓取时间、以及播放量、加上基本规则,存储本地:
  35. 3.1 分辨率,宽或者高 >= 720 或 无分辨
  36. 3.2 600 >= 时长 >= 60
  37. 4.循环隔 1 小时,检查播放量 >=1000(当前播放量 - 1 小时前的播放量),开始抓取。同时从本地存储中删除,加入到去重文本中。
  38. 5.下载总条数,先不限制
  39. 6.下载时间:早上 8 点 - 晚上 21 点截止
  40. 7.下载完成后立即上传
  41. ==============================