wangkun 2 лет назад
Родитель
Сommit
4c7c64cc52
2 измененных файлов с 23 добавлено и 14 удалено
  1. 19 13
      README.md
  2. 4 1
      main/search_by_words.py

+ 19 - 13
README.md

@@ -1,16 +1,22 @@
-twitter爬虫
+# twitter爬虫
 
-python==3.10
-loguru==0.6.0
-python_dateutil==2.8.2
-requests==2.27.1
-urllib3==1.26.9
+#### 软件架构
+1. python==3.10 
+2. loguru==0.6.0
+3. python_dateutil==2.8.2
+4. requests==2.27.1
+5. urllib3==1.26.9
 
-1.必须要可以访问 twitter 的网络条件
-2.执行入口 ./main/run.py
+#### 使用说明
+1. 必须要可以访问 twitter 的网络条件
+2. 执行入口 ./main/run.py
 
-#********** 2022/06/24 **********#
-1.爬虫数据启用新文档:https://w42nne6hzg.feishu.cn/base/bascnpAYvIA0B1hBtNJlriZceUV?table=tblqMbXrpqFbDLNE&view=vewsMtek0O
-2.旧文档依然使用:https://w42nne6hzg.feishu.cn/sheets/shtcn6BYfYuqegIP13ORB6rI2dh?sheet=db114c&table=tblEUZWvkiLPEmam&view=vew2a2J1NI
-3.每个搜索词,搜索 20 条/页,共搜索 400 页
-4.新文档插入数据后,自动按照 created_at 字段降序排列
+#### 需求
+2022/9/26
+1. 旧表数据迁移,抓取数据时,同时在两个表中,根据 uid 去重
+
+2022/06/24
+1. 爬虫数据启用新文档:https://w42nne6hzg.feishu.cn/base/bascnpAYvIA0B1hBtNJlriZceUV?table=tblqMbXrpqFbDLNE&view=vewsMtek0O
+2. 旧文档依然使用:https://w42nne6hzg.feishu.cn/sheets/shtcn6BYfYuqegIP13ORB6rI2dh?sheet=db114c&table=tblEUZWvkiLPEmam&view=vew2a2J1NI
+3. 每个搜索词,搜索 20 条/页,共搜索 400 页
+4. 新文档插入数据后,自动按照 created_at 字段降序排列

+ 4 - 1
main/search_by_words.py

@@ -281,7 +281,10 @@ class Search:
                         Common.logger().info("无效用户")
 
                     # 用户已存在云文档中
-                    elif uid in [j for i in Feishu.get_values_batch("twitter", "db114c") for j in i]:
+                    elif uid in [j for i in Feishu.get_values_batch("twitter", "db114c") for j in i]\
+                            or str(uid) in [j for i in Feishu.get_values_batch("twitter", "db114c") for j in i]\
+                            or uid in [j for i in Feishu.get_values_batch("twitter", "B9NIuU") for j in i]\
+                            or str(uid) in [j for i in Feishu.get_values_batch("twitter", "B9NIuU") for j in i]:
                         Common.logger().info("用户已存在:{}", uid)
                         pass
                         # time.sleep(1)