暂无描述

yangxiaohui dbfbedca02 feat: 添加帖子树构建步骤，优化tab显示为日期+标题降序		4 天之前
config	64380d838c add	6 天之前
doc	d512b4720b feat: 实现多账号目录管理和可配置过滤规则	1 周之前
docs	b927055b88 feat: 实现数据目录独立和版本化输出管理	1 周之前
examples	d481d212a5 add	1 周之前
lib	bbfd5a7778 refactor: 优化匹配流程和进度显示	1 周之前
script	dbfbedca02 feat: 添加帖子树构建步骤，优化tab显示为日期+标题降序	4 天之前
scripts	dd33bd5b57 add	2 周之前
.gitignore	8ae1521e4e chore: 添加.DS_Store到gitignore	1 周之前
CACHE_CONFIG.md	9728da6bec feat: 统一缓存路径管理，默认使用 ~/cache	1 周之前
CACHE_LOCATION.md	9728da6bec feat: 统一缓存路径管理，默认使用 ~/cache	1 周之前
CACHE_MIGRATION_SUMMARY.md	9728da6bec feat: 统一缓存路径管理，默认使用 ~/cache	1 周之前
CARTESIAN_ARCHITECTURE.md	d8e0263e6a feat: 实现笛卡尔积批量计算优化相似度匹配性能	1 周之前
README.md	b927055b88 feat: 实现数据目录独立和版本化输出管理	1 周之前
README_How解构可视化.md	0248716e1b docs: 添加How解构结果可视化工具文档	2 周之前
README_text_embedding.md	d481d212a5 add	1 周之前
README_可视化.md	7a24c4f1ac feat: 优化可视化界面功能和用户体验	2 周之前
README_索引构建.md	1e12efe27e add	2 周之前
analyze_inspiration_results.py	c6e387c3e5 add	2 周之前
build_category_index.py	a2246104f8 feat: 添加多维度索引构建系统和搜索集成	2 周之前
build_note_to_all_index.py	a2246104f8 feat: 添加多维度索引构建系统和搜索集成	2 周之前
build_point_to_note_index.py	a2246104f8 feat: 添加多维度索引构建系统和搜索集成	2 周之前
extract_inspirations.py	929d439ca4 add	2 周之前
how_decode_v1.py	dd33bd5b57 add	2 周之前
migrate_data_to_cache.py	9728da6bec feat: 统一缓存路径管理，默认使用 ~/cache	1 周之前
run_inspiration_analysis.py	aca42f3657 feat: 优化Step4匹配逻辑和增强批处理功能	2 周之前
run_step3_from_analysis.py	b954477e68 add	2 周之前
step1_inspiration_match.py	c6e387c3e5 add	2 周之前
step2_incremental_match.py	c6e387c3e5 add	2 周之前
step3_generate_inspirations.py	b954477e68 add	2 周之前
step4_search_result_match.py	aca42f3657 feat: 优化Step4匹配逻辑和增强批处理功能	2 周之前
visualize_inspiration_points.py	063d92a925 refactor: 精简可视化导航栏匹配信息显示	2 周之前
visualize_inspiration_points_backup.py	c6e387c3e5 add	2 周之前

How 解构项目 v1124

🚀 快速开始

# 运行完整流程
./script/data_processing/run_all_with_config.sh 阿里多多酱1

# 验证配置
python script/data_processing/path_config.py

📂 项目结构

how_1124_v1/                    # 项目代码
├── config/
│   └── accounts.json          # 配置文件（data_root: "../data"）
├── script/
│   └── data_processing/       # 数据处理脚本
├── lib/                       # 核心库
└── docs/                      # 文档

../data/                        # 共享数据目录
└── 账号/阿里多多酱1/
    ├── what单独解构/          # 输入：当前帖子
    ├── 用于pattern聚类/       # 输入：历史帖子
    ├── pattern相关文件/       # 输入：pattern聚合
    └── how解构_outputs/        # 输出（版本化）
        └── how_1124_v1/       # 本项目输出
            ├── intermediate/
            ├── results/
            └── visualization/

🎯 核心特性

1. 自动版本识别

✅ 输出自动使用项目目录名作为版本（how_1124_v1）
✅ 不同版本输出自动隔离，互不干扰

2. 共享数据目录

✅ 所有项目共享 ../data/ 输入数据
✅ 支持环境变量 DATA_ROOT 覆盖

3. 版本化输出

✅ 输出路径：../data/账号/{账号名}/how解构_outputs/{版本}/
✅ 便于对比不同版本的结果

📊 数据处理流程

输入：
├─ pattern聚合结果.json
├─ 历史帖子what解构/*.json
└─ 当前帖子what解构/*.json

↓ 步骤1: 提取特征分类映射
├─ 特征名称_分类映射.json
└─ 分类层级映射.json

↓ 步骤2: 提取特征帖子来源
└─ 特征名称_帖子来源.json

↓ 步骤3: 提取当前帖子解构任务列表
└─ 当前帖子_解构任务列表.json

↓ 步骤4: 匹配灵感特征（核心）
└─ {帖子ID}_how.json × N

↓ 步骤5: 可视化结果
└─ how解构结果_可视化.html

输出位置：
../data/账号/阿里多多酱1/how解构_outputs/how_1124_v1/

🔧 配置说明

数据根目录（优先级从高到低）

环境变量：DATA_ROOT=~/Documents/数据
配置文件：config/accounts.json 中的 data_root
默认值：../data（当前配置）

输出版本（优先级从高到低）

环境变量：OUTPUT_VERSION=test_version
配置文件：config/accounts.json 中的 output_version
默认值：项目目录名（how_1124_v1）✅ 推荐

账号名称（优先级从高到低）

命令行参数：./run_all_with_config.sh 账号名
环境变量：ACCOUNT_NAME=账号名
配置文件：default_account

📝 常用命令

# 处理单个账号
./script/data_processing/run_all_with_config.sh 阿里多多酱1

# 处理所有启用的账号
./script/data_processing/run_all_with_config.sh --all

# 使用环境变量
ACCOUNT_NAME=阿里多多酱1 ./script/data_processing/run_all_with_config.sh

# 自定义输出版本
OUTPUT_VERSION=experiment ./script/data_processing/run_all_with_config.sh 阿里多多酱1

# 查看所有版本输出
ls ../data/账号/阿里多多酱1/how解构_outputs/

# 打开可视化
open ../data/账号/阿里多多酱1/how解构_outputs/how_1124_v1/visualization/how解构结果_可视化.html

📖 文档

数据目录配置说明 - 详细的配置说明和使用场景
其他项目迁移指南 - 迁移其他 how_* 项目的步骤
迁移完成总结 - 本次迁移的总结和下一步建议

🎨 功能亮点

1. 笛卡尔积批量计算

使用混合模型一次性计算 M×N 的特征相似度矩阵，大幅提升性能。

# lib/hybrid_similarity.py
similarity_results = await compare_phrases_cartesian(
    feature_names,      # M个特征
    persona_names,      # N个人设
    max_concurrent=100  # LLM最大并发数
)

2. 进度实时显示

进度: [████████████████████░░░░░░░░] 1234/2000 (61.7%), 预计剩余: 45秒

3. 多账号批量处理

# 一次性处理所有启用的账号
./script/data_processing/run_all_with_config.sh --all

⚙️ 依赖

Python 3.8+
依赖库：详见 requirements.txt（如果有）

🐛 故障排除

问题：路径不存在

症状：

⚠️  警告: 部分输入路径不存在！

解决：

# 检查数据目录是否存在
ls -la ../data/账号/阿里多多酱1/

# 验证配置
python script/data_processing/path_config.py

问题：版本不正确

症状：输出到了错误的版本目录

解决：

# 检查是否设置了环境变量
echo $OUTPUT_VERSION

# 清除环境变量
unset OUTPUT_VERSION

# 重新运行
python script/data_processing/path_config.py

📄 许可

内部项目

👤 作者

Semsevens

最后更新: 2024-11-24

README.md

How 解构项目 v1124

🚀 快速开始

📂 项目结构

🎯 核心特性

1. 自动版本识别

2. 共享数据目录

3. 版本化输出

📊 数据处理流程

🔧 配置说明

数据根目录（优先级从高到低）

输出版本（优先级从高到低）

账号名称（优先级从高到低）

📝 常用命令

📖 文档

🎨 功能亮点

1. 笛卡尔积批量计算

2. 进度实时显示

3. 多账号批量处理

⚙️ 依赖

🐛 故障排除

问题：路径不存在

问题：版本不正确

📄 许可

👤 作者