|
|
@@ -2,12 +2,29 @@
|
|
|
|
|
|
本模块提供数据提取和转换功能,用于处理小红书帖子的特征提取和分类映射。
|
|
|
|
|
|
+## 目录结构
|
|
|
+
|
|
|
+```
|
|
|
+script/data_processing/
|
|
|
+├── __init__.py # 模块初始化
|
|
|
+├── README.md # 使用文档(本文件)
|
|
|
+├── docs/ # 需求文档目录
|
|
|
+│ ├── 1、获取标签->分类.md # extract_feature_categories.py 的需求
|
|
|
+│ ├── 2、获取标签->帖子.md # extract_features_from_posts.py 的需求
|
|
|
+│ └── 3、构造解构任务列表.md # extract_current_posts.py 的需求
|
|
|
+├── extract_feature_categories.py # 特征分类映射提取脚本
|
|
|
+├── extract_features_from_posts.py # 特征帖子来源提取脚本
|
|
|
+└── extract_current_posts.py # 当前帖子解构任务列表提取脚本
|
|
|
+```
|
|
|
+
|
|
|
## 脚本说明
|
|
|
|
|
|
### 1. extract_current_posts.py
|
|
|
|
|
|
从 `当前帖子_what解构结果` 目录中提取当前帖子的解构任务列表。
|
|
|
|
|
|
+**需求文档:** [docs/3、构造解构任务列表.md](docs/3、构造解构任务列表.md)
|
|
|
+
|
|
|
**功能:**
|
|
|
- 从当前帖子的解构结果中提取灵感点、目的点、关键点
|
|
|
- 自动获取帖子详情(标题、正文、图片、点赞数等)
|
|
|
@@ -64,6 +81,8 @@ python /path/to/script/data_processing/extract_current_posts.py
|
|
|
|
|
|
从 `过去帖子_what解构结果` 目录中提取特征名称及其来源信息。
|
|
|
|
|
|
+**需求文档:** [docs/2、获取标签->帖子.md](docs/2、获取标签->帖子.md)
|
|
|
+
|
|
|
**功能:**
|
|
|
- 从帖子的三点解构(灵感点、目的点、关键点)中提取特征
|
|
|
- 自动获取帖子详情(标题、正文、图片、点赞数等)
|
|
|
@@ -119,6 +138,8 @@ python /path/to/script/data_processing/extract_features_from_posts.py
|
|
|
|
|
|
从 `过去帖子_pattern聚合结果.json` 中提取特征名称及其分类层级信息。
|
|
|
|
|
|
+**需求文档:** [docs/1、获取标签->分类.md](docs/1、获取标签->分类.md)
|
|
|
+
|
|
|
**功能:**
|
|
|
- 提取特征名称到分类的映射关系
|
|
|
- 构建分类层级结构(包括层级深度、是否叶子节点、下一级节点等)
|