説明なし

wangkun 4c7c64cc52 update 2 年 前
logs 7f4d4d2725 第一次提交 2 年 前
main 4c7c64cc52 update 2 年 前
.gitignore 91ab15fc75 push .gitignore 2 年 前
README.md 4c7c64cc52 update 2 年 前
__init__.py 7f4d4d2725 第一次提交 2 年 前

README.md

twitter爬虫

软件架构

  1. python==3.10
  2. loguru==0.6.0
  3. python_dateutil==2.8.2
  4. requests==2.27.1
  5. urllib3==1.26.9

使用说明

  1. 必须要可以访问 twitter 的网络条件
  2. 执行入口 ./main/run.py

需求

2022/9/26

  1. 旧表数据迁移,抓取数据时,同时在两个表中,根据 uid 去重

2022/06/24

  1. 爬虫数据启用新文档:https://w42nne6hzg.feishu.cn/base/bascnpAYvIA0B1hBtNJlriZceUV?table=tblqMbXrpqFbDLNE&view=vewsMtek0O
  2. 旧文档依然使用:https://w42nne6hzg.feishu.cn/sheets/shtcn6BYfYuqegIP13ORB6rI2dh?sheet=db114c&table=tblEUZWvkiLPEmam&view=vew2a2J1NI
  3. 每个搜索词,搜索 20 条/页,共搜索 400 页
  4. 新文档插入数据后,自动按照 created_at 字段降序排列