data/
├── 账号/
│ ├── 阿里多多酱/ # 账号目录
│ │ ├── what解构/ # 当前帖子what解构(原始数据,不动)
│ │ ├── what解构_所有帖子/ # 过去帖子what解构(原始数据,不动)
│ │ ├── pattern/ # pattern聚合结果(原始数据,不动)
│ │ │ └── cluster/
│ │ │ └── clustered_data.json
│ │ └── how解构/ # 新增:所有输出结果
│ │ ├── intermediate/ # 中间结果
│ │ │ ├── 特征名称_分类映射.json
│ │ │ ├── 分类层级映射.json
│ │ │ ├── 特征名称_帖子来源.json
│ │ │ └── 当前帖子_解构任务列表.json
│ │ ├── results/ # how解构最终结果
│ │ │ └── *_how.json
│ │ └── visualization/ # 可视化结果
│ │ └── how解构结果_可视化.html
│ │
│ └── 其他账号名/ # 其他账号,结构相同
│ └── ...
│
└── config/
└── accounts.json # 账号配置文件
what解构/、what解构_所有帖子/、pattern/ 保持原样how解构/ 目录下编辑 config/accounts.json:
{
"accounts": [
{
"name": "阿里多多酱",
"enabled": true,
"description": "第一个测试账号"
},
{
"name": "新账号名",
"enabled": true,
"description": "新增账号"
}
],
"default_account": "阿里多多酱"
}
确保账号目录下有以下原始数据:
what解构/ - 当前帖子解构结果what解构_所有帖子/ - 过去帖子解构结果pattern/cluster/clustered_data.json - pattern聚合结果# 指定账号名
./script/data_processing/run_all_with_config.sh 阿里多多酱
# 或使用环境变量
ACCOUNT_NAME=阿里多多酱 ./script/data_processing/run_all_with_config.sh
./script/data_processing/run_all_with_config.sh --all
处理完成后,结果在 data/账号/<账号名>/how解构/ 目录下:
intermediate/ - 中间结果文件results/ - how解构结果visualization/ - 可视化HTML文件所有Python脚本都应该使用 PathConfig 类来管理路径:
from path_config import PathConfig
# 获取路径配置
config = PathConfig() # 使用默认账号或环境变量
# 或指定账号
config = PathConfig(account_name="阿里多多酱")
# 使用路径
input_file = config.pattern_cluster_file
output_file = config.feature_category_mapping_file
# 确保输出目录存在
config.ensure_dirs()
PathConfig 类提供的主要属性:
current_posts_dir - 当前帖子目录historical_posts_dir - 过去帖子目录pattern_cluster_file - pattern聚合文件intermediate_dir - 中间结果目录feature_category_mapping_file - 特征分类映射文件category_hierarchy_file - 分类层级映射文件feature_source_mapping_file - 特征来源映射文件task_list_file - 任务列表文件how_results_dir - how解构结果目录visualization_dir - 可视化目录visualization_file - 可视化HTML文件ACCOUNT_NAME 指定账号,方便在CI/CD中使用