فهرست منبع

docs: 组织需求文档并更新README

- 将需求文档移动到 script/data_processing/docs/ 目录
- 在 README 中添加目录结构说明
- 为每个脚本添加对应需求文档的引用链接
- 建立需求文档与实现脚本的明确对应关系
yangxiaohui 2 هفته پیش
والد
کامیت
fb4fcfbcc9

+ 21 - 0
script/data_processing/README.md

@@ -2,12 +2,29 @@
 
 本模块提供数据提取和转换功能,用于处理小红书帖子的特征提取和分类映射。
 
+## 目录结构
+
+```
+script/data_processing/
+├── __init__.py                          # 模块初始化
+├── README.md                             # 使用文档(本文件)
+├── docs/                                 # 需求文档目录
+│   ├── 1、获取标签->分类.md              # extract_feature_categories.py 的需求
+│   ├── 2、获取标签->帖子.md              # extract_features_from_posts.py 的需求
+│   └── 3、构造解构任务列表.md            # extract_current_posts.py 的需求
+├── extract_feature_categories.py         # 特征分类映射提取脚本
+├── extract_features_from_posts.py        # 特征帖子来源提取脚本
+└── extract_current_posts.py              # 当前帖子解构任务列表提取脚本
+```
+
 ## 脚本说明
 
 ### 1. extract_current_posts.py
 
 从 `当前帖子_what解构结果` 目录中提取当前帖子的解构任务列表。
 
+**需求文档:** [docs/3、构造解构任务列表.md](docs/3、构造解构任务列表.md)
+
 **功能:**
 - 从当前帖子的解构结果中提取灵感点、目的点、关键点
 - 自动获取帖子详情(标题、正文、图片、点赞数等)
@@ -64,6 +81,8 @@ python /path/to/script/data_processing/extract_current_posts.py
 
 从 `过去帖子_what解构结果` 目录中提取特征名称及其来源信息。
 
+**需求文档:** [docs/2、获取标签->帖子.md](docs/2、获取标签->帖子.md)
+
 **功能:**
 - 从帖子的三点解构(灵感点、目的点、关键点)中提取特征
 - 自动获取帖子详情(标题、正文、图片、点赞数等)
@@ -119,6 +138,8 @@ python /path/to/script/data_processing/extract_features_from_posts.py
 
 从 `过去帖子_pattern聚合结果.json` 中提取特征名称及其分类层级信息。
 
+**需求文档:** [docs/1、获取标签->分类.md](docs/1、获取标签->分类.md)
+
 **功能:**
 - 提取特征名称到分类的映射关系
 - 构建分类层级结构(包括层级深度、是否叶子节点、下一级节点等)

+ 69 - 0
script/data_processing/docs/1、获取标签->分类.md

@@ -0,0 +1,69 @@
+
+请你以`data/data_1117/过去帖子_pattern聚合结果.json`为输入,编写代码实现,输出特征名称对应的分类;
+输入:
+```json
+{
+    "灵感点列表": {
+        "[分类名称]": {
+            "[叶子分类名称]": {
+                "特征列表": [
+                    {
+                        "特征名称": "[特征名称]",
+                        ...
+                    },
+                    ...
+                ],
+            }
+        },
+        "[叶子分类名称]": {
+            "特征列表": [
+                {
+                    "特征名称": "[特征名称]",
+                    ...
+                },
+                ...
+            ]
+        },
+    },
+    "目的点": {},
+    "关键点列表": {},
+}
+``` 
+输出:
+```json
+{
+    "灵感点": {
+        "[特征名称]": {
+            "所属分类": ["[上1级分类名称]", "[上2级分类名称]", ..., "[最顶层的分类名称]"],
+        }
+    },
+    "目的点": {
+        "[特征名称]": {
+            "所属分类": ["[上1级分类名称]", "[上2级分类名称]", ..., "[最顶层的分类名称]"],
+        }
+    },
+    "关键点": {
+         "[特征名称]": {
+            "所属分类": ["[上1级分类名称]", "[上2级分类名称]", ..., "[最顶层的分类名称]"],
+        }
+    }
+}
+``` 
+
+新建一个函数以上面的为输入,输出分类名称到下一级的映射关系:
+```json
+{
+    "灵感点": {
+        "[分类名称]": {
+            "几级分类": 1-n,
+            "是否是叶子分类": true/false,
+            "下一级": [
+                {"节点类型":"分类/特征", "节点名称":""},
+            ]
+        }
+    },
+    "目的点": {
+    },
+    "关键点": {
+    },
+}

+ 26 - 0
script/data_processing/docs/2、获取标签->帖子.md

@@ -0,0 +1,26 @@
+
+
+请你以`data/data_1117/过去帖子_what解构结果`目录为输入,下面的每个文件是以`[帖子ID]_xxx.json`命名的,特征名称主要来自于“提取的特征”字段,“灵感点”下的全新内容、共性差异、共性内容是不同的角度,下面的数据都要;
+现在要你写代码实现:提取以下结果:
+输出:
+```json
+{
+    "灵感点": [
+        {
+            "特征名称": "[特征名称]",
+            "特征来源": [
+                {
+                    "点的名称": "",
+                    "点的描述": "",
+                    "帖子id": ""
+                }
+            ]
+        }
+    ],
+    "目的点": [
+
+    ],
+    "关键点": [
+
+    ],
+}

+ 28 - 0
script/data_processing/docs/3、构造解构任务列表.md

@@ -0,0 +1,28 @@
+新建一个脚本,以`data/data_1117/当前帖子_what解构结果`目录为输入,生成解构的薯
+```json
+{
+    "解构任务列表": [
+        {
+            "帖子id": "",
+            "帖子详情": {
+
+            },
+            "what解构结果": {
+                "灵感点列表": [
+                    {
+                        "名称": "",
+                        "描述": "",
+                        "特征列表": [
+                            "[特征名称1]",
+                            "[特征名称2]",
+                        ]
+                    }
+                ],
+                "目的点列表":[
+                ],
+                "关键点列表":[
+                ]
+            }
+        }
+    ]
+}