快手和微视小程序的爬虫 loguru==0.6.0 oss2==2.15.0 requests==2.27.1 urllib3==1.26.9 python==3.10.0 执行入口: 1. cd ./crawler_kuaishou 2.python3 main/run_xxx.py ==========2022/7/8=========== 1.已下载视频表,增加:站内视频链接 2.合并脚本:推荐榜 / 关注榜 3.关注榜修改:从用户主页下载 4.抓取/下载规则:点赞 >= 1W 或分享 >= 1K 5.发布时间: 7 天内 ==========2022/6/8=========== 一、按照关注账号进行抓取 1、任务开始时间: - 循环抓取,每次间隔 1 小时 2、抓取规则: - 视频发布时间 72 小时内 - 视频播放量点赞量5万+ ,分享量2000+ - 视频时长1分钟以上,10分钟以下 - 视频分辨率720以上 - 站内标题=快手视频原标题 (需要过滤掉标题中的话题# #和@) - 站内封面图=快手视频原封面图 3、站内承接: - 每日入库100条视频(优先爬取最新达到标准的视频) - 视频随机分配到10个虚拟账号。uid列表:快手爬虫账号 4、特别注意: - 视频需要排重,已经抓取过得视频,不要重复抓取 - 需要对视频库进行持续扫描:如1条视频上周未达到5万+点赞,本周达到了5万点赞,则进行抓取。 ==========2022/4/15=========== 一、按照数据指标抓取 1、任务开始时间: - 每天早上8点-晚上22点 - 2、抓取规则: - 视频播放量点赞量5万+ ,分享量2000+ - 视频时长1分钟以上,10分钟以下 - 视频分辨率720以上 - 站内标题=快手视频原标题 (需要过滤掉标题中的话题# #) - 站内封面图=快手视频原封面图 3、站内承接: - 每日入库200条视频 - 视频随机分配到10个虚拟账号。 4、特别注意: - 视频需要排重,已经抓取过得视频,不要重复抓取 - 需要对视频库进行持续扫描:如1条视频上周未达到5万+点赞,本周达到了5万点赞,则进行抓取。 5、新增爬虫视频标题过滤词 - 集结吧光合创作者、电影解说、快来露两手、分享家常美食教程、光合作者助手、创作者中心、创作者学院、娱乐星熠计划、解说电影、电影剪辑、放映室、老剧、影视剪辑、精彩片段、冬日影娱大作战、春日追剧计划单、影视解说、中视频影视混剪计划、众志成城共抗疫情、我在追好剧、娱乐星灿计划、电影、电视剧、毛泽东、毛主席、周恩来、林彪、习近平、习大大、彭丽媛、怀旧经典影视 ==============================