# crawler_xigua 1. git:https://git.yishihui.com/Server/crawler_xigua 2. feishu:https://w42nne6hzg.feishu.cn/sheets/shtcnvOpx2P8vBXiV91Ot1MKIw8?sheet=e075e9 #### 软件架构 1. ffmpeg-python==0.2.0 2. ffmpeg==1.4 3. loguru==0.6.0 4. lxml==4.9.1 5. oss2==2.15.0 6. requests==2.27.1 7. selenium==4.2.0 8. urllib3==1.26.9 9. webdriver-manager==3.8.3 #### 使用说明 1. cd ./crawler_xigua 2. python3 /main/run_xigua_follow.py #### 需求 2022/11/19 1. 增加已下载表_11月之前 2022/9/28 1. 排除置顶过期(发布时间超过10天)视频 2022/9/23 1. 爬取时间:不限制时间:只要定向账号更新,就进行爬取 2. 爬取规则: 1. 视频时长:1分钟以上 2. 视频数据(点赞+播放量)无要求 3. 视频分辨率720以上 4. 站内标题=西瓜视频原标题 5. 站内封面图=西瓜视频原封面图 3. 站内承接: 1. 视频数量不限(因为这类账号一周基本上只更新1-7条左右,较少是日更的) 2. 由于是定向账号抓取,所以,视频和账号要一对一匹配,目前有个疑问,新的爬虫可否直接把抓取的内容,继续承接在之前老的爬虫账号上?如果不能实现,那就用新的虚拟账号进行承接。 3. 账号分两种:老账号直接承接,新账号另找新的虚拟账号,原则,定向爬取,一对一。 4. 注意事项:目前账号有两种类型,一种是老账号,一种是新账号,老账号抓取时间,只需要按照爬虫上线的时间进行抓取最近刚发的内容即可。 5. 过滤词: 毛泽东、毛主席、周恩来、林彪、习近平、习大大、彭丽媛、拜登、普京、佩洛西、蔡英文,后续继续补充