| 
					
				 | 
			
			
				@@ -1,118 +1,83 @@ 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				-小年糕爬虫 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				- 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				-python==3.10 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				-loguru==0.6.0 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				-oss2==2.15.0 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				-requests==2.27.1 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				-urllib3==1.26.9 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				- 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				-执行入口: 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				- 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				-1.cd ./crawler-xiaoniangao 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				- 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				-2.python3 ./main/run_xx.py 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				- 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				- 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				-==========2022/7/06=========== 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				- 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				-新增:用户主页抓取视频 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				- 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				-1.发布时间 72 小时内 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				- 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				-2.播放量 >= 2000 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				- 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				-3.时长 >= 1 分钟 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				- 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				-4.抓取间隔时长: 1 小时 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				- 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				- 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				- 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				-==========2022/6/29=========== 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				- 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				-已下载视频表:预留前 5 列备用 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				- 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				-已下载视频表增加列:站内视频链接 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				- 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				-已下载视频,同步信息至监控表:https://w42nne6hzg.feishu.cn/sheets/shtcnlZWYazInhf7Z60jkbLRJyd?sheet=6fed97 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				- 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				- 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				- 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				-==========2022/6/17========== 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				- 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				-小时榜抓取基础规则: 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				- 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				-1.时长>=40s 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				- 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				-2.发布时间<=10天 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				- 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				-3.播放量>=4000 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				- 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				-4.过滤无效视频(标题、ID、时长等为空) 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				- 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				-5.过滤敏感词库 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				- 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				-6.从已下载表中去重 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				- 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				-7.从小时榜表中去重 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				- 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				-小时榜更新规则: 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				- 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				-1.抓取时间<=2天 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				- 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				-2.每天 10、15、20 点更新播放量的差值(上升榜中写入的数据:当前播放量 - 上个时间段的播放量) 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				- 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				-小时榜下载规则: 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				- 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				-1.抓取时间<=3天 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				- 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				-2.视频时长>=40s 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				- 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				-3.任意时间段播放量上升>=5000 或 连续两个时间段播放量上升>=2000 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				- 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				- 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				-关注榜抓取基础规则: 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				- 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				-1.时长>=40s 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				- 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				-2.发布时间<=2天 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				- 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				-3.播放量>=5000 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				- 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				-关注榜下载规则: 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				- 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				-1.过滤无效视频(标题、ID、时长等为空) 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				- 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				-2.过滤敏感词库 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				- 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				-3.从已下载表中去重 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				- 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				- 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				-上传视频时,info.txt文件中的视频信息包含: 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				- 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				-str(download_video_id) 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				- 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				-str(download_video_title) 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				- 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				-str(download_video_duration) 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				- 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				-str(download_video_play_cnt) 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				- 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				-str(download_video_comment_cnt) 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				- 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				-str(download_video_like_cnt) 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				- 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				-str(download_video_share_cnt) 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				- 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				-str(download_video_resolution) 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				- 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				-str(download_video_send_time) 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				- 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				-str(download_user_name) 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				- 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				-str(download_head_url) 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				- 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				-str(download_video_url) 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				- 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				-str(download_cover_url) 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				- 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				-str(download_video_session) 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+# 小年糕爬虫 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+ 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+ 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+#### 文档 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+ 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+1. GIT: https://git.yishihui.com/Server/crawler-xiaoniangao.git 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+2. 云文档: https://w42nne6hzg.feishu.cn/sheets/shtcnYxiyQ1wLklo1W5Kdqc9cGh?sheetyatRv2 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+ 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+ 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+#### 软件架构 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+ 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+1. ffmpeg1.4 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+2. ffmpeg_python0.2.0 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+3. loguru0.6.0 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+4. oss22.15.0 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+5. requests2.27.1 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+6. urllib31.26.9 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+7. python3.10 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+ 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+ 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+#### 使用说明 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+ 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+1. cd ./crawler_xiaoniangao 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+2. python3 main/run_recommend.py  
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+3. python3 main/run_person.py 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+ 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+ 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+#### 需求  
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+ 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+2022/9/5 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+1. 修复个人主页抓取无权限写入飞书文档的问题 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+2. 小时榜下载规则修改:播放量>=10W -> 播放量>=5W 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+ 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+2022/7/06 新增:用户主页抓取视频 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+1. 发布时间 72 小时内  
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+2. 播放量 > 2000  
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+3. 时长 > 1 分钟  
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+4. 抓取间隔时长: 1 小时 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+ 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+2022/6/29  
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+1. 已下载视频表:预留前 5 列备用  
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+2. 已下载视频表增加列:站内视频链接  
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+3. 已下载视频,同步信息至监控表:https://w42nne6hzg.feishu.cn/sheets/shtcnlZWYazInhf7Z60jkbLRJyd?sheet6fed97 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+ 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+2022/6/17  
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+1. 小时榜抓取基础规则 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+   1. 时长>40s 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+   2. 发布时间<10天 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+   3. 播放量>4000 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+   4. 过滤无效视频(标题、ID、时长等为空) 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+   5. 过滤敏感词库 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+   6. 从已下载表中去重 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+   7. 从小时榜表中去重 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+2. 小时榜更新规则: 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+   1. 抓取时间<2天 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+   2. 每天 10、15、20 点更新播放量的差值(上升榜中写入的数据:当前播放量 - 上个时间段的播放量) 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+3. 小时榜下载规则 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+   1. 抓取时间<3天 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+   2. 视频时长>40s 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+   3. 任意时间段播放量上升>5000 或 连续两个时间段播放量上升>2000 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+4. 关注榜抓取基础规则 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+   1. 时长>40s 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+   2. 发布时间<2天 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+   3. 播放量>5000 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+5. 关注榜下载规则 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+   1. 过滤无效视频(标题、ID、时长等为空) 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+   2. 过滤敏感词库 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+   3. 从已下载表中去重 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+6. 上传视频时,info.txt文件中的视频信息包含 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+   1. str(download_video_id) 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+   2. str(download_video_title) 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+   3. str(download_video_duration) 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+   4. str(download_video_play_cnt) 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+   5. str(download_video_comment_cnt) 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+   6. str(download_video_like_cnt) 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+   7. str(download_video_share_cnt) 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+   8. str(download_video_resolution) 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+   9. str(download_video_send_time) 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+   10. str(download_user_name) 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+   11. str(download_head_url) 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+   12. str(download_video_url) 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+   13. str(download_cover_url) 
			 | 
		
	
		
			
				 | 
				 | 
			
			
				+   14. str(download_video_session) 
			 |