# crawler_xigua
1. git:https://git.yishihui.com/Server/crawler_xigua
2. feishu:https://w42nne6hzg.feishu.cn/sheets/shtcnvOpx2P8vBXiV91Ot1MKIw8?sheet=e075e9

#### 软件架构
1. ffmpeg-python==0.2.0
2. ffmpeg==1.4
3. loguru==0.6.0
4. lxml==4.9.1 
5. oss2==2.15.0 
6. requests==2.27.1 
7. selenium==4.2.0 
8. urllib3==1.26.9 
9. webdriver-manager==3.8.3

#### 使用说明
1. cd ./crawler_xigua
2. python3 /main/run_xigua_follow.py

#### 需求
2022/11/19
1. 增加已下载表_11月之前

2022/9/28
1. 排除置顶过期(发布时间超过10天)视频

2022/9/23
1. 爬取时间：不限制时间：只要定向账号更新，就进行爬取
2. 爬取规则： 
   1. 视频时长：1分钟以上 
   2. 视频数据（点赞+播放量）无要求 
   3. 视频分辨率720以上
   4. 站内标题=西瓜视频原标题
   5. 站内封面图=西瓜视频原封面图
3. 站内承接： 
   1. 视频数量不限（因为这类账号一周基本上只更新1-7条左右，较少是日更的）
   2. 由于是定向账号抓取，所以，视频和账号要一对一匹配，目前有个疑问，新的爬虫可否直接把抓取的内容，继续承接在之前老的爬虫账号上？如果不能实现，那就用新的虚拟账号进行承接。 
   3. 账号分两种：老账号直接承接，新账号另找新的虚拟账号，原则，定向爬取，一对一。
4. 注意事项：目前账号有两种类型，一种是老账号，一种是新账号，老账号抓取时间，只需要按照爬虫上线的时间进行抓取最近刚发的内容即可。
5. 过滤词： 毛泽东、毛主席、周恩来、林彪、习近平、习大大、彭丽媛、拜登、普京、佩洛西、蔡英文，后续继续补充