|
@@ -1,118 +1,83 @@
|
|
|
-小年糕爬虫
|
|
|
-
|
|
|
-python==3.10
|
|
|
-loguru==0.6.0
|
|
|
-oss2==2.15.0
|
|
|
-requests==2.27.1
|
|
|
-urllib3==1.26.9
|
|
|
-
|
|
|
-执行入口:
|
|
|
-
|
|
|
-1.cd ./crawler-xiaoniangao
|
|
|
-
|
|
|
-2.python3 ./main/run_xx.py
|
|
|
-
|
|
|
-
|
|
|
-==========2022/7/06===========
|
|
|
-
|
|
|
-新增:用户主页抓取视频
|
|
|
-
|
|
|
-1.发布时间 72 小时内
|
|
|
-
|
|
|
-2.播放量 >= 2000
|
|
|
-
|
|
|
-3.时长 >= 1 分钟
|
|
|
-
|
|
|
-4.抓取间隔时长: 1 小时
|
|
|
-
|
|
|
-
|
|
|
-
|
|
|
-==========2022/6/29===========
|
|
|
-
|
|
|
-已下载视频表:预留前 5 列备用
|
|
|
-
|
|
|
-已下载视频表增加列:站内视频链接
|
|
|
-
|
|
|
-已下载视频,同步信息至监控表:https://w42nne6hzg.feishu.cn/sheets/shtcnlZWYazInhf7Z60jkbLRJyd?sheet=6fed97
|
|
|
-
|
|
|
-
|
|
|
-
|
|
|
-==========2022/6/17==========
|
|
|
-
|
|
|
-小时榜抓取基础规则:
|
|
|
-
|
|
|
-1.时长>=40s
|
|
|
-
|
|
|
-2.发布时间<=10天
|
|
|
-
|
|
|
-3.播放量>=4000
|
|
|
-
|
|
|
-4.过滤无效视频(标题、ID、时长等为空)
|
|
|
-
|
|
|
-5.过滤敏感词库
|
|
|
-
|
|
|
-6.从已下载表中去重
|
|
|
-
|
|
|
-7.从小时榜表中去重
|
|
|
-
|
|
|
-小时榜更新规则:
|
|
|
-
|
|
|
-1.抓取时间<=2天
|
|
|
-
|
|
|
-2.每天 10、15、20 点更新播放量的差值(上升榜中写入的数据:当前播放量 - 上个时间段的播放量)
|
|
|
-
|
|
|
-小时榜下载规则:
|
|
|
-
|
|
|
-1.抓取时间<=3天
|
|
|
-
|
|
|
-2.视频时长>=40s
|
|
|
-
|
|
|
-3.任意时间段播放量上升>=5000 或 连续两个时间段播放量上升>=2000
|
|
|
-
|
|
|
-
|
|
|
-关注榜抓取基础规则:
|
|
|
-
|
|
|
-1.时长>=40s
|
|
|
-
|
|
|
-2.发布时间<=2天
|
|
|
-
|
|
|
-3.播放量>=5000
|
|
|
-
|
|
|
-关注榜下载规则:
|
|
|
-
|
|
|
-1.过滤无效视频(标题、ID、时长等为空)
|
|
|
-
|
|
|
-2.过滤敏感词库
|
|
|
-
|
|
|
-3.从已下载表中去重
|
|
|
-
|
|
|
-
|
|
|
-上传视频时,info.txt文件中的视频信息包含:
|
|
|
-
|
|
|
-str(download_video_id)
|
|
|
-
|
|
|
-str(download_video_title)
|
|
|
-
|
|
|
-str(download_video_duration)
|
|
|
-
|
|
|
-str(download_video_play_cnt)
|
|
|
-
|
|
|
-str(download_video_comment_cnt)
|
|
|
-
|
|
|
-str(download_video_like_cnt)
|
|
|
-
|
|
|
-str(download_video_share_cnt)
|
|
|
-
|
|
|
-str(download_video_resolution)
|
|
|
-
|
|
|
-str(download_video_send_time)
|
|
|
-
|
|
|
-str(download_user_name)
|
|
|
-
|
|
|
-str(download_head_url)
|
|
|
-
|
|
|
-str(download_video_url)
|
|
|
-
|
|
|
-str(download_cover_url)
|
|
|
-
|
|
|
-str(download_video_session)
|
|
|
+# 小年糕爬虫
|
|
|
+
|
|
|
+
|
|
|
+#### 文档
|
|
|
+
|
|
|
+1. GIT: https://git.yishihui.com/Server/crawler-xiaoniangao.git
|
|
|
+2. 云文档: https://w42nne6hzg.feishu.cn/sheets/shtcnYxiyQ1wLklo1W5Kdqc9cGh?sheetyatRv2
|
|
|
+
|
|
|
+
|
|
|
+#### 软件架构
|
|
|
+
|
|
|
+1. ffmpeg1.4
|
|
|
+2. ffmpeg_python0.2.0
|
|
|
+3. loguru0.6.0
|
|
|
+4. oss22.15.0
|
|
|
+5. requests2.27.1
|
|
|
+6. urllib31.26.9
|
|
|
+7. python3.10
|
|
|
+
|
|
|
+
|
|
|
+#### 使用说明
|
|
|
+
|
|
|
+1. cd ./crawler_xiaoniangao
|
|
|
+2. python3 main/run_recommend.py
|
|
|
+3. python3 main/run_person.py
|
|
|
+
|
|
|
+
|
|
|
+#### 需求
|
|
|
+
|
|
|
+2022/9/5
|
|
|
+1. 修复个人主页抓取无权限写入飞书文档的问题
|
|
|
+2. 小时榜下载规则修改:播放量>=10W -> 播放量>=5W
|
|
|
+
|
|
|
+2022/7/06 新增:用户主页抓取视频
|
|
|
+1. 发布时间 72 小时内
|
|
|
+2. 播放量 > 2000
|
|
|
+3. 时长 > 1 分钟
|
|
|
+4. 抓取间隔时长: 1 小时
|
|
|
+
|
|
|
+2022/6/29
|
|
|
+1. 已下载视频表:预留前 5 列备用
|
|
|
+2. 已下载视频表增加列:站内视频链接
|
|
|
+3. 已下载视频,同步信息至监控表:https://w42nne6hzg.feishu.cn/sheets/shtcnlZWYazInhf7Z60jkbLRJyd?sheet6fed97
|
|
|
+
|
|
|
+2022/6/17
|
|
|
+1. 小时榜抓取基础规则
|
|
|
+ 1. 时长>40s
|
|
|
+ 2. 发布时间<10天
|
|
|
+ 3. 播放量>4000
|
|
|
+ 4. 过滤无效视频(标题、ID、时长等为空)
|
|
|
+ 5. 过滤敏感词库
|
|
|
+ 6. 从已下载表中去重
|
|
|
+ 7. 从小时榜表中去重
|
|
|
+2. 小时榜更新规则:
|
|
|
+ 1. 抓取时间<2天
|
|
|
+ 2. 每天 10、15、20 点更新播放量的差值(上升榜中写入的数据:当前播放量 - 上个时间段的播放量)
|
|
|
+3. 小时榜下载规则
|
|
|
+ 1. 抓取时间<3天
|
|
|
+ 2. 视频时长>40s
|
|
|
+ 3. 任意时间段播放量上升>5000 或 连续两个时间段播放量上升>2000
|
|
|
+4. 关注榜抓取基础规则
|
|
|
+ 1. 时长>40s
|
|
|
+ 2. 发布时间<2天
|
|
|
+ 3. 播放量>5000
|
|
|
+5. 关注榜下载规则
|
|
|
+ 1. 过滤无效视频(标题、ID、时长等为空)
|
|
|
+ 2. 过滤敏感词库
|
|
|
+ 3. 从已下载表中去重
|
|
|
+6. 上传视频时,info.txt文件中的视频信息包含
|
|
|
+ 1. str(download_video_id)
|
|
|
+ 2. str(download_video_title)
|
|
|
+ 3. str(download_video_duration)
|
|
|
+ 4. str(download_video_play_cnt)
|
|
|
+ 5. str(download_video_comment_cnt)
|
|
|
+ 6. str(download_video_like_cnt)
|
|
|
+ 7. str(download_video_share_cnt)
|
|
|
+ 8. str(download_video_resolution)
|
|
|
+ 9. str(download_video_send_time)
|
|
|
+ 10. str(download_user_name)
|
|
|
+ 11. str(download_head_url)
|
|
|
+ 12. str(download_video_url)
|
|
|
+ 13. str(download_cover_url)
|
|
|
+ 14. str(download_video_session)
|