wangkun 2 년 전
부모
커밋
8fcfeee95e
2개의 변경된 파일71개의 추가작업 그리고 115개의 파일을 삭제
  1. 69 113
      README.md
  2. 2 2
      main/follow_list.py

+ 69 - 113
README.md

@@ -1,115 +1,71 @@
 # 快手小程序的爬虫
-
-https://wangkun@git.yishihui.com/Server/crawler-kuaishou.git
-
-
-
-# 依赖库文件
-
-loguru==0.6.0
-oss2==2.15.0
-requests==2.27.1
-urllib3==1.26.9
-python==3.10.0
-
-
-
-# 执行入口
-
-cd ./crawler_kuaishou
-
-python3 main/run_xxx.py 
-
-
-
-# 需求
-
-==========2022/8/19===========
-
-1.抓取标题字数限制:40 字
-
-
-==========2022/7/8===========
-
-1.已下载视频表,增加:站内视频链接
-
-2.合并脚本:推荐榜 / 关注榜
-
-3.关注榜修改:从用户主页下载
-
-4.抓取/下载规则:点赞 >= 1W 或分享 >= 1K
-
-5.发布时间: 7 天内
-
-
-==========2022/6/8===========
-
-一、按照关注账号进行抓取
-
-1、任务开始时间:
-
-- 循环抓取,每次间隔 1 小时
-
-2、抓取规则:
-
-  - 视频发布时间 72 小时内 
-
-  - 视频播放量点赞量5万+ ,分享量2000+
-
-  - 视频时长1分钟以上,10分钟以下
-
-  - 视频分辨率720以上
-
-  - 站内标题=快手视频原标题 (需要过滤掉标题中的话题#  #和@)
-
-  - 站内封面图=快手视频原封面图
-
-3、站内承接:
-
-  - 每日入库100条视频(优先爬取最新达到标准的视频)
-
-  - 视频随机分配到10个虚拟账号。uid列表:快手爬虫账号
-
-4、特别注意:
-
-  - 视频需要排重,已经抓取过得视频,不要重复抓取
-
-  - 需要对视频库进行持续扫描:如1条视频上周未达到5万+点赞,本周达到了5万点赞,则进行抓取。
-
-
-==========2022/4/15===========
-
-一、按照数据指标抓取
-
-1、任务开始时间:
-
-- 每天早上8点-晚上22点
-- 
-2、抓取规则:
-
-  - 视频播放量点赞量5万+ ,分享量2000+
-
-  - 视频时长1分钟以上,10分钟以下
-
-  - 视频分辨率720以上
-
-  - 站内标题=快手视频原标题 (需要过滤掉标题中的话题#  #)
-
-  - 站内封面图=快手视频原封面图
-
-3、站内承接:
-
-  - 每日入库200条视频
-
-  - 视频随机分配到10个虚拟账号。
-
-4、特别注意:
-
-  - 视频需要排重,已经抓取过得视频,不要重复抓取
-
-  - 需要对视频库进行持续扫描:如1条视频上周未达到5万+点赞,本周达到了5万点赞,则进行抓取。
-
-5、新增爬虫视频标题过滤词
-
-  - 集结吧光合创作者、电影解说、快来露两手、分享家常美食教程、光合作者助手、创作者中心、创作者学院、娱乐星熠计划、解说电影、电影剪辑、放映室、老剧、影视剪辑、精彩片段、冬日影娱大作战、春日追剧计划单、影视解说、中视频影视混剪计划、众志成城共抗疫情、我在追好剧、娱乐星灿计划、电影、电视剧、毛泽东、毛主席、周恩来、林彪、习近平、习大大、彭丽媛、怀旧经典影视
+1. https://git.yishihui.com/Server/crawler-kuaishou.git
+2. https://w42nne6hzg.feishu.cn/sheets/shtcnICEfaw9llDNQkKgdymM1xf
+
+
+#### 软件架构
+1. loguru==0.6.0 
+2. oss2==2.15.0 
+3. requests==2.27.1 
+4. urllib3==1.26.9 
+5. python==3.10.0
+
+
+#### 使用说明
+1. cd ./crawler_kuaishou 
+2. python3 main/run_xxx.py
+
+
+#### 需求
+
+2022/9/16
+1. 快手关注列表爬取门槛调整:
+   1. 1min以上改为30s以上
+   2. 点赞量10000+改为5000+
+
+2022/8/19
+1. 抓取标题字数限制:40 字
+
+2022/7/8
+1. 已下载视频表,增加:站内视频链接
+2. 合并脚本:推荐榜 / 关注榜
+3. 关注榜修改:从用户主页下载
+4. 抓取/下载规则:点赞 >= 1W 或分享 >= 1K
+5. 发布时间: 7 天内
+
+2022/6/8
+1. 按照关注账号进行抓取 
+   1. 任务开始时间:循环抓取,每次间隔 1 小时 
+   2. 抓取规则: 
+      1. 视频发布时间 72 小时内 
+      2. 视频播放量点赞量5万+ ,分享量2000+ 
+      3. 视频时长1分钟以上,10分钟以下 
+      4. 视频分辨率720以上 
+      5. 站内标题=快手视频原标题 (需要过滤掉标题中的话题#  #和@) 
+      6. 站内封面图=快手视频原封面图 
+   3. 站内承接: 
+      1. 每日入库100条视频(优先爬取最新达到标准的视频) 
+      2. 视频随机分配到10个虚拟账号。uid列表:快手爬虫账号
+   4. 特别注意: 
+      1. 视频需要排重,已经抓取过得视频,不要重复抓取 
+      2. 需要对视频库进行持续扫描:如1条视频上周未达到5万+点赞,本周达到了5万点赞,则进行抓取。
+
+2022/4/15
+1. 按照数据指标抓取
+   1. 任务开始时间: 每天早上8点-晚上22点 
+   2. 抓取规则:
+      1. 视频播放量点赞量5万+ ,分享量2000+ 
+      2. 视频时长1分钟以上,10分钟以下 
+      3. 视频分辨率720以上 
+      4. 站内标题=快手视频原标题 (需要过滤掉标题中的话题#  #) 
+      5. 站内封面图=快手视频原封面图
+   3. 站内承接:
+      1. 每日入库200条视频 
+      2. 视频随机分配到10个虚拟账号。
+   4. 特别注意:
+      1. 视频需要排重,已经抓取过得视频,不要重复抓取
+      2. 需要对视频库进行持续扫描:如1条视频上周未达到5万+点赞,本周达到了5万点赞,则进行抓取。
+
+   5. 新增爬虫视频标题过滤词
+      1. 集结吧光合创作者、电影解说、快来露两手、分享家常美食教程、光合作者助手、创作者中心、创作者学院、娱乐星熠计划、解说电影、电影剪辑、放映室、老剧、影视剪辑、精彩片段、冬日影娱大作战、春日追剧计划单、影视解说、中视频影视混剪计划、众志成城共抗疫情、我在追好剧、娱乐星灿计划、电影、电视剧、毛泽东、毛主席、周恩来、林彪、习近平、习大大、彭丽媛、怀旧经典影视
   

+ 2 - 2
main/follow_list.py

@@ -67,10 +67,10 @@ class Follow:
         :param d_share_cnt: 分享量
         :return: 满足规则,返回 True;反之,返回 False
         """
-        if int(float(d_duration)) >= 60:
+        if int(float(d_duration)) >= 30:
             if int(d_width) >= 720 or int(d_height) >= 720:
                 if int(d_play_cnt) >= 5000:
-                    if int(d_like_cnt) >= 10000 or int(d_share_cnt) >= 1000:
+                    if int(d_like_cnt) >= 5000 or int(d_share_cnt) >= 1000:
                         return True
                     else:
                         return False