|
@@ -1,16 +1,22 @@
|
|
|
-twitter爬虫
|
|
|
+# twitter爬虫
|
|
|
|
|
|
-python==3.10
|
|
|
-loguru==0.6.0
|
|
|
-python_dateutil==2.8.2
|
|
|
-requests==2.27.1
|
|
|
-urllib3==1.26.9
|
|
|
+#### 软件架构
|
|
|
+1. python==3.10
|
|
|
+2. loguru==0.6.0
|
|
|
+3. python_dateutil==2.8.2
|
|
|
+4. requests==2.27.1
|
|
|
+5. urllib3==1.26.9
|
|
|
|
|
|
-1.必须要可以访问 twitter 的网络条件
|
|
|
-2.执行入口 ./main/run.py
|
|
|
+#### 使用说明
|
|
|
+1. 必须要可以访问 twitter 的网络条件
|
|
|
+2. 执行入口 ./main/run.py
|
|
|
|
|
|
-#********** 2022/06/24 **********#
|
|
|
-1.爬虫数据启用新文档:https://w42nne6hzg.feishu.cn/base/bascnpAYvIA0B1hBtNJlriZceUV?table=tblqMbXrpqFbDLNE&view=vewsMtek0O
|
|
|
-2.旧文档依然使用:https://w42nne6hzg.feishu.cn/sheets/shtcn6BYfYuqegIP13ORB6rI2dh?sheet=db114c&table=tblEUZWvkiLPEmam&view=vew2a2J1NI
|
|
|
-3.每个搜索词,搜索 20 条/页,共搜索 400 页
|
|
|
-4.新文档插入数据后,自动按照 created_at 字段降序排列
|
|
|
+#### 需求
|
|
|
+2022/9/26
|
|
|
+1. 旧表数据迁移,抓取数据时,同时在两个表中,根据 uid 去重
|
|
|
+
|
|
|
+2022/06/24
|
|
|
+1. 爬虫数据启用新文档:https://w42nne6hzg.feishu.cn/base/bascnpAYvIA0B1hBtNJlriZceUV?table=tblqMbXrpqFbDLNE&view=vewsMtek0O
|
|
|
+2. 旧文档依然使用:https://w42nne6hzg.feishu.cn/sheets/shtcn6BYfYuqegIP13ORB6rI2dh?sheet=db114c&table=tblEUZWvkiLPEmam&view=vew2a2J1NI
|
|
|
+3. 每个搜索词,搜索 20 条/页,共搜索 400 页
|
|
|
+4. 新文档插入数据后,自动按照 created_at 字段降序排列
|