wangkun пре 2 година
родитељ
комит
245212454c
3 измењених фајлова са 25 додато и 15 уклоњено
  1. 20 10
      README.md
  2. 1 1
      main/follow_list.py
  3. 4 4
      main/recommend_list.py

+ 20 - 10
README.md

@@ -1,21 +1,32 @@
-快手和微视小程序的爬虫
+# 快手小程序的爬虫
 
-loguru==0.6.0
+https://wangkun@git.yishihui.com/Server/crawler-kuaishou.git
 
-oss2==2.15.0
 
-requests==2.27.1
 
-urllib3==1.26.9
+# 依赖库文件
 
+loguru==0.6.0
+oss2==2.15.0
+requests==2.27.1
+urllib3==1.26.9
 python==3.10.0
 
 
-执行入口:
 
-1. cd ./crawler_kuaishou
+# 执行入口
 
-2.python3 main/run_xxx.py 
+cd ./crawler_kuaishou
+
+python3 main/run_xxx.py 
+
+
+
+# 需求
+
+==========2022/8/19===========
+
+1.抓取标题字数限制:40 字
 
 
 ==========2022/7/8===========
@@ -101,5 +112,4 @@ python==3.10.0
 5、新增爬虫视频标题过滤词
 
   - 集结吧光合创作者、电影解说、快来露两手、分享家常美食教程、光合作者助手、创作者中心、创作者学院、娱乐星熠计划、解说电影、电影剪辑、放映室、老剧、影视剪辑、精彩片段、冬日影娱大作战、春日追剧计划单、影视解说、中视频影视混剪计划、众志成城共抗疫情、我在追好剧、娱乐星灿计划、电影、电视剧、毛泽东、毛主席、周恩来、林彪、习近平、习大大、彭丽媛、怀旧经典影视
-
-==============================
+  

+ 1 - 1
main/follow_list.py

@@ -352,7 +352,7 @@ class Follow:
                         .replace("#", "").replace(".", "。").replace("\\", "") \
                         .replace(":", "").replace("*", "").replace("?", "") \
                         .replace("?", "").replace('"', "").replace("<", "") \
-                        .replace(">", "").replace("|", "").replace("@", "")
+                        .replace(">", "").replace("|", "").replace("@", "")[:40]
 
                     if "photoId" not in feeds[i]:
                         video_id = "0"

+ 4 - 4
main/recommend_list.py

@@ -10,12 +10,10 @@ import sys
 import time
 import requests
 import urllib3
-
 sys.path.append(os.getcwd())
 from main.common import Common
 from main.feishu_lib import Feishu
 from main.publish import Publish
-
 proxies = {"http": None, "https": None}
 
 
@@ -74,8 +72,10 @@ class KuaiShou:
                         return False
                 else:
                     return False
+            else:
+                return False
+        else:
             return False
-        return False
 
     @classmethod
     def get_feeds(cls, log_type):
@@ -163,7 +163,7 @@ class KuaiShou:
                     .replace("#", "").replace(".", "。").replace("\\", "") \
                     .replace(":", "").replace("*", "").replace("?", "") \
                     .replace("?", "").replace('"', "").replace("<", "") \
-                    .replace(">", "").replace("|", "")
+                    .replace(">", "").replace("|", "")[:40]
 
                 if "photoId" not in feeds[i]:
                     video_id = "0"