# AutoScraperX 配置说明 本文档详细说明了AutoScraperX项目的配置项。 --- # 环境配置说明 环境配置通过 `.env` 文件进行配置,以下为所有可配置项: | 配置项 | 描述 | 是否必填 | 默认值 | |--------|------|----------|--------| | ENV | 运行环境 (可选值: prod, dev) | 否 | prod | | DB_HOST | 数据库主机地址 | 是 | | | DB_PORT | 数据库端口 | 否 | 3306 | | DB_USER | 数据库用户名 | 是 | | | DB_PASSWORD | 数据库密码 | 是 | | | DB_NAME | 数据库名称 | 是 | | | DB_CHARSET | 数据库字符集 | 是 | | | ROCKETMQ_ENDPOINT | RocketMQ接入点 | 是 | | | ROCKETMQ_ACCESS_KEY_ID | RocketMQ访问密钥ID | 是 | | | ROCKETMQ_ACCESS_KEY_SECRET | RocketMQ访问密钥 | 是 | | | FEISHU_APPID | 飞书应用ID | 是 | | | FEISHU_APPSECRET | 飞书应用密钥 | 是 | | | ALIYUN_ACCESS_KEY_ID | 阿里云访问密钥ID | 是 | | | ALIYUN_ACCESS_KEY_SECRET | 阿里云访问密钥 | 是 | | | REDIS_HOST | Redis主机地址 | 是 | | | REDIS_PORT | Redis端口 | 否 | 6379 | | REDIS_PASSWORD | Redis密码 | 是 | | --- # 爬虫配置说明 爬虫配置通过 `config/spiders_config.yaml` 文件进行配置。 ## 配置示例 ```yaml default: base_url: http://8.217.192.46:8889 request_timeout: 30 max_retries: 3 headers: {"Content-Type": "application/json"} benshanzhufurecommend: platform: benshanzhufu mode: recommend path: /crawler/ben_shan_zhu_fu/recommend method: post request_body: cursor: "{{next_cursor}}" loop_times: 50 loop_interval: min: 30 max: 60 feishu_sheetid: "aTSJH4" response_parse: data: "$.data" next_cursor: "$.data.next_cursor" data_path: "$.data.data" fields: video_id: "$.nid" video_title: "$.title" play_cnt: 0 publish_time_stamp: "$.update_time" out_user_id: "$.nid" cover_url: "$.video_cover" like_cnt: 0 video_url: "$.video_url" out_video_id: "$.nid" yuannifuqimanmanrecommend: platform: yuannifuqimanman mode: recommend path: /crawler/yuan_ni_fu_qi_man_man/recommend method: post request_body: cursor: "{{next_cursor}}" loop_times: 100 loop_interval: min: 30 max: 60 feishu_sheetid: "golXy9" response_parse: data: "$.data" next_cursor: "$.data.next_cursor" data_path: "$.data.data" fields: video_id: "$.nid" video_title: "$.title" out_user_id: "$.nid" cover_url: "$.video_cover" video_url: "$.video_url" out_video_id: "$.nid" xiaoniangaoauthor: platform: xiaoniangao mode: author path: /crawler/xiao_nian_gao_plus/blogger method: post request_body: cursor: "{{next_cursor}}" account_id: "{{uid}}" # 数据库的uid loop_times: 100 loop_interval: min: 5 max: 20 feishu_sheetid: "golXy9" response_parse: uid: "$.uid" # 数据库的uid next_cursor: "$.cursor" data: "$.data" has_more: "$.data.has_more" data_path: "$.data.data" fields: video_title: "$.title" duration: "$.du" play_cnt: "$.play_pv" like_cnt: "$.favor.total" comment_cnt: "$.comment_count" share_cnt: "$.share" width: "$.w" height: "$.h" avatar_url: "$.user.hurl" cover_url: "$.url" video_url: "$.v_url" out_user_id: "$.user.mid" out_video_id: "$.vid" publish_time_stamp: "$.t" ``` ## 字段说明 ### 全局配置字段 | 字段 | 描述 | |------|------| | base_url | 基础URL,用于拼接完整请求URL | | request_timeout | 请求超时时间(秒) | | max_retries | 最大重试次数 | | headers | 请求头信息 | ### 平台配置字段 | 字段 | 描述 | |------|------| | platform | 平台名称 | | mode | 爬取模式(如 recommend, author) | | path | API路径 | | url | 完整请求URL | | method | HTTP请求方法 | | request_body | 请求体参数 | | loop_times | 循环次数 | | loop_interval | 循环间隔(min/max) | | response_parse | 响应解析配置 | | feishu_sheetid | 飞书表格ID | ### 响应解析字段 | 字段 | 描述 | |------|------| | data_path | 数据列表路径 | | next_cursor | 下一页游标路径 | | has_more | 是否还有更多数据路径 | | fields | 字段映射配置 | --- ## 当前配置状态 - 平台配置数量: 3 - 运行环境: prod - 配置文件路径: /AutoScraperX/config/spiders_config.yaml