|
|
6 روز پیش | |
|---|---|---|
| .. | ||
| docs | 2 هفته پیش | |
| README.md | 2 هفته پیش | |
| __init__.py | 2 هفته پیش | |
| analyze_first_step.py | 1 هفته پیش | |
| analyze_first_step_v2.py | 1 هفته پیش | |
| build_match_graph.py | 6 روز پیش | |
| build_persona_tree.py | 6 روز پیش | |
| check_empty_key_points.py | 1 هفته پیش | |
| extract_category_edges.py | 1 هفته پیش | |
| extract_current_posts.py | 1 هفته پیش | |
| extract_feature_categories.py | 1 هفته پیش | |
| extract_features_from_posts.py | 1 هفته پیش | |
| extract_nodes_and_edges.py | 1 هفته پیش | |
| filter_how_results.py | 1 هفته پیش | |
| match_inspiration_features.py | 1 هفته پیش | |
| match_inspiration_features_v2.py | 2 هفته پیش | |
| migrate_data_structure.sh | 1 هفته پیش | |
| path_config.py | 1 هفته پیش | |
| run_all.sh | 1 هفته پیش | |
| run_all_with_config.sh | 1 هفته پیش | |
| visualize_how_results.py | 1 هفته پیش | |
| visualize_how_results_v2.py | 2 هفته پیش | |
| visualize_match_graph.py | 6 روز پیش | |
本模块提供数据提取和转换功能,用于处理小红书帖子的特征提取和分类映射。
script/data_processing/
├── __init__.py # 模块初始化
├── README.md # 使用文档(本文件)
├── docs/ # 需求文档目录
│ ├── 1、获取标签->分类.md # extract_feature_categories.py 的需求
│ ├── 2、获取标签->帖子.md # extract_features_from_posts.py 的需求
│ └── 3、构造解构任务列表.md # extract_current_posts.py 的需求
├── extract_feature_categories.py # 特征分类映射提取脚本
├── extract_features_from_posts.py # 特征帖子来源提取脚本
└── extract_current_posts.py # 当前帖子解构任务列表提取脚本
从 当前帖子_what解构结果 目录中提取当前帖子的解构任务列表。
需求文档: docs/3、构造解构任务列表.md
功能:
输入:
data/data_1117/当前帖子_what解构结果/*.json - 当前帖子的解构结果输出:
data/data_1117/当前帖子_解构任务列表.json - 当前帖子的解构任务列表使用方法:
# 从项目根目录运行
python script/data_processing/extract_current_posts.py
# 或者从任意目录运行
python /path/to/script/data_processing/extract_current_posts.py
输出格式:
{
"解构任务列表": [
{
"帖子id": "690d977d0000000007036331",
"帖子详情": {
"title": "你不会无缘无故刷到的",
"body_text": "...",
"like_count": 123,
"publish_time": "2025-11-07 15:08:59",
...
},
"what解构结果": {
"灵感点列表": [
{
"名称": "发现立冬和教资查分是同一天",
"描述": "创作者在构思内容时...",
"特征列表": ["立冬", "教资查分", "时间巧合"]
}
],
"目的点列表": [...],
"关键点列表": [...]
}
}
]
}
从 过去帖子_what解构结果 目录中提取特征名称及其来源信息。
需求文档: docs/2、获取标签->帖子.md
功能:
输入:
data/data_1117/过去帖子_what解构结果/*.json - 过去帖子的解构结果data/data_1117/当前帖子_what解构结果/*.json - 当前帖子的解构结果(用于获取时间阈值)输出:
data/data_1117/特征名称_帖子来源.json - 特征名称及其帖子来源映射使用方法:
# 从项目根目录运行
python script/data_processing/extract_features_from_posts.py
# 或者从任意目录运行
python /path/to/script/data_processing/extract_features_from_posts.py
输出格式:
{
"灵感点": [
{
"特征名称": "猫咪",
"特征来源": [
{
"点的名称": "猫咪照片拍出了专业模特感",
"点的描述": "...",
"帖子id": "69114f150000000007001f30",
"帖子详情": {
"title": "老师 我家孩子可以做童模吗",
"body_text": "...",
"like_count": 765,
"publish_time": "2025-11-10 10:33:58",
...
}
}
]
}
],
"目的点": [...],
"关键点": [...]
}
从 过去帖子_pattern聚合结果.json 中提取特征名称及其分类层级信息。
需求文档: docs/1、获取标签->分类.md
功能:
输入:
data/data_1117/过去帖子_pattern聚合结果.json - Pattern聚合结果data/data_1117/当前帖子_what解构结果/*.json - 当前帖子(用于获取时间阈值)输出:
data/data_1117/特征名称_分类映射.json - 特征名称到分类的映射data/data_1117/分类层级映射.json - 分类层级结构使用方法:
# 从项目根目录运行
python script/data_processing/extract_feature_categories.py
# 或者从任意目录运行
python /path/to/script/data_processing/extract_feature_categories.py
输出格式1 - 特征名称_分类映射.json:
{
"灵感点": {
"猫咪": {
"所属分类": ["物体", "实质"]
}
},
"目的点": {...},
"关键点": {...}
}
输出格式2 - 分类层级映射.json:
{
"灵感点": {
"形式": {
"几级分类": 1,
"是否是叶子分类": false,
"下一级": [
{
"节点类型": "分类",
"节点名称": "概念"
},
{
"节点类型": "分类",
"节点名称": "方式"
}
]
}
},
"目的点": {...},
"关键点": {...}
}
两个脚本都实现了时间过滤功能,避免使用"未来"的数据(时间穿越):
当前帖子_what解构结果 目录中获取最早的帖子发布时间示例输出:
当前帖子最早发布时间: 2025-11-07 15:08:59
正在应用时间过滤 (< 2025-11-07 15:08:59),避免使用晚于当前帖子的数据...
⚠️ 过滤掉帖子 69114f150000000007001f30 (发布时间: 2025-11-10 10:33:58,晚于阈值)
⚠️ 过滤掉帖子 6915dfc400000000070224d9 (发布时间: 2025-11-14 10:22:16,晚于阈值)
过滤掉 2 个帖子(穿越),保留 17 个帖子
script.detail.get_xiaohongshu_detail - 获取小红书帖子详情