看一看+小程序爬虫

wangkun 2e9387c9f7 update 1 年之前
logs 609cf71637 提交新的看一看的脚本 3 年之前
main 2e9387c9f7 update 1 年之前
videos 609cf71637 提交新的看一看的脚本 3 年之前
.gitignore 5a725bf81a first push 3 年之前
README.md cd335caaef update 1 年之前
kanyikan.sh 1c3f111d12 update 1 年之前

README.md

看一看+小程序爬虫

  1. git: https://git.yishihui.com/Server/crawler_kanyikan.git
  2. feishu: https://w42nne6hzg.feishu.cn/sheets/shtcngRPoDYAi24x52j2nDuHMih

软件架构

python==3.10.0 loguru==0.6.0 oss2==2.15.0 requests==2.27.1 urllib3==1.26.9

使用说明

测试调试: sh kanyikan.sh --log_type="recommend" --crawler="kanyikan" --env="dev" 正式环境:

  • * * * * /bin/sh /Users/lieyunye/Desktop/crawler/crawler_kanyikan/kanyikan.sh --log_type="recommend" --crawler="kanyikan" --env="prod" 杀进程 ps aux | grep kanyikan_recommend | grep -v grep | awk '{print $2}' | xargs kill -9

videoid.txt 存储视频信息:

  • 视频 ID
  • 视频标题
  • 视频时长
  • 播放次数
  • 评论数
  • 点赞数
  • 分享数
  • 分辨率
  • 发布时间
  • 用户名
  • 头像地址
  • 播放地址
  • 封面地址
  • 外网session

需求

2022/11/09

  1. 合并推荐榜及朋友圈代码

2022/6/29

  1. 已下载视频表:预留前 5 列备用
  2. 已下载视频表增加列:站内视频链接
  3. 已下载视频,同步信息至监控表:https://w42nne6hzg.feishu.cn/sheets/shtcnlZWYazInhf7Z60jkbLRJyd?sheet=6fed97

2022/6/17

  1. 推荐榜运行时间: recommend_feeds 0-24点
  2. 7日内播放大于2万,或播放大于15万
  3. 新增:download_play_sendtime.py
  4. 执行入口:run_download_play_sendtime.py

2022/6/16

  1. 凌晨0点-15点 3日内播放大于2万 爬取
  2. 晚上15点-24点 15万播放爬取
  3. 视频发布7日内,播放量大于2万
  4. 视频时长40秒以上
  5. 分辨率 宽或高大于720
  6. 分享量>0
  7. 站内标题=看一看视频原标题
  8. 站内封面图=看一看视频原封面图

2022/4/21

  1. 视频发布7日内,播放量大于1万(当前时间 - 发布时间 <= 7 天)
  2. 任务执行规则:
    1. 凌晨0点-10点 7日内播放大于1万 爬取
    2. 早上10点-20点 内容上升榜 爬取
    3. 晚上20点-24点 15万播放爬取

2022/4/15

  1. 视频发布3日内,播放量大于2万(当前时间 - 发布时间 <= 3 天)
  2. 视频时长1分钟以上,10分钟以下
  3. 分辨率 宽或高大于720
  4. 分享量>0
  5. 站内标题=看一看视频原标题
  6. 站内封面图=看一看视频原封面图
  7. 任务执行规则:
    1. 凌晨0点-10点 3日内播放大于2万 爬取
    2. 早上10点-20点 内容上升榜 爬取
    3. 晚上20点-24点 15万播放爬取

2022/3/29

  1. 凌晨5:00 - 21:00,跑上升榜爬虫(循环隔 1 小时,检查播放量>=1000)
  2. 晚上21:00 - 5:00,跑播放量爬虫(播放量>=200000)
  3. 视频下载后,立即上传

2022/3/24

  1. 周一至周五,跑上升榜爬虫(循环隔 1 小时,检查播放量>=1000)
  2. 周六至周日,跑播放量爬虫(播放量>=200000)
  3. 视频下载后,立即上传
  4. 下周一时,暂停播放量爬虫,恢复上升榜爬虫

2022/3/15

  1. 拿到外网视频 list
  2. 去重
  3. 获取当前抓取时间、以及播放量、加上基本规则,存储本地:
    1. 分辨率,宽或者高 >= 720 或 无分辨
    2. 600 >= 时长 >= 60
  4. 循环隔 1 小时,检查播放量 >=1000(当前播放量 - 1 小时前的播放量),开始抓取。同时从本地存储中删除,加入到去重文本中。
  5. 下载总条数,先不限制
  6. 下载时间:早上 8 点 - 晚上 21 点截止
  7. 下载完成后立即上传