暂无描述

yangxiaohui dbfbedca02 feat: 添加帖子树构建步骤,优化tab显示为日期+标题降序 4 天之前
config 64380d838c add 6 天之前
doc d512b4720b feat: 实现多账号目录管理和可配置过滤规则 1 周之前
docs b927055b88 feat: 实现数据目录独立和版本化输出管理 1 周之前
examples d481d212a5 add 1 周之前
lib bbfd5a7778 refactor: 优化匹配流程和进度显示 1 周之前
script dbfbedca02 feat: 添加帖子树构建步骤,优化tab显示为日期+标题降序 4 天之前
scripts dd33bd5b57 add 2 周之前
.gitignore 8ae1521e4e chore: 添加.DS_Store到gitignore 1 周之前
CACHE_CONFIG.md 9728da6bec feat: 统一缓存路径管理,默认使用 ~/cache 1 周之前
CACHE_LOCATION.md 9728da6bec feat: 统一缓存路径管理,默认使用 ~/cache 1 周之前
CACHE_MIGRATION_SUMMARY.md 9728da6bec feat: 统一缓存路径管理,默认使用 ~/cache 1 周之前
CARTESIAN_ARCHITECTURE.md d8e0263e6a feat: 实现笛卡尔积批量计算优化相似度匹配性能 1 周之前
README.md b927055b88 feat: 实现数据目录独立和版本化输出管理 1 周之前
README_How解构可视化.md 0248716e1b docs: 添加How解构结果可视化工具文档 2 周之前
README_text_embedding.md d481d212a5 add 1 周之前
README_可视化.md 7a24c4f1ac feat: 优化可视化界面功能和用户体验 2 周之前
README_索引构建.md 1e12efe27e add 2 周之前
analyze_inspiration_results.py c6e387c3e5 add 2 周之前
build_category_index.py a2246104f8 feat: 添加多维度索引构建系统和搜索集成 2 周之前
build_note_to_all_index.py a2246104f8 feat: 添加多维度索引构建系统和搜索集成 2 周之前
build_point_to_note_index.py a2246104f8 feat: 添加多维度索引构建系统和搜索集成 2 周之前
extract_inspirations.py 929d439ca4 add 2 周之前
how_decode_v1.py dd33bd5b57 add 2 周之前
migrate_data_to_cache.py 9728da6bec feat: 统一缓存路径管理,默认使用 ~/cache 1 周之前
run_inspiration_analysis.py aca42f3657 feat: 优化Step4匹配逻辑和增强批处理功能 2 周之前
run_step3_from_analysis.py b954477e68 add 2 周之前
step1_inspiration_match.py c6e387c3e5 add 2 周之前
step2_incremental_match.py c6e387c3e5 add 2 周之前
step3_generate_inspirations.py b954477e68 add 2 周之前
step4_search_result_match.py aca42f3657 feat: 优化Step4匹配逻辑和增强批处理功能 2 周之前
visualize_inspiration_points.py 063d92a925 refactor: 精简可视化导航栏匹配信息显示 2 周之前
visualize_inspiration_points_backup.py c6e387c3e5 add 2 周之前

README.md

How 解构项目 v1124

🚀 快速开始

# 运行完整流程
./script/data_processing/run_all_with_config.sh 阿里多多酱1

# 验证配置
python script/data_processing/path_config.py

📂 项目结构

how_1124_v1/                    # 项目代码
├── config/
│   └── accounts.json          # 配置文件(data_root: "../data")
├── script/
│   └── data_processing/       # 数据处理脚本
├── lib/                       # 核心库
└── docs/                      # 文档

../data/                        # 共享数据目录
└── 账号/阿里多多酱1/
    ├── what单独解构/          # 输入:当前帖子
    ├── 用于pattern聚类/       # 输入:历史帖子
    ├── pattern相关文件/       # 输入:pattern聚合
    └── how解构_outputs/        # 输出(版本化)
        └── how_1124_v1/       # 本项目输出
            ├── intermediate/
            ├── results/
            └── visualization/

🎯 核心特性

1. 自动版本识别

  • ✅ 输出自动使用项目目录名作为版本(how_1124_v1
  • ✅ 不同版本输出自动隔离,互不干扰

2. 共享数据目录

  • ✅ 所有项目共享 ../data/ 输入数据
  • ✅ 支持环境变量 DATA_ROOT 覆盖

3. 版本化输出

  • ✅ 输出路径:../data/账号/{账号名}/how解构_outputs/{版本}/
  • ✅ 便于对比不同版本的结果

📊 数据处理流程

输入:
├─ pattern聚合结果.json
├─ 历史帖子what解构/*.json
└─ 当前帖子what解构/*.json

↓ 步骤1: 提取特征分类映射
├─ 特征名称_分类映射.json
└─ 分类层级映射.json

↓ 步骤2: 提取特征帖子来源
└─ 特征名称_帖子来源.json

↓ 步骤3: 提取当前帖子解构任务列表
└─ 当前帖子_解构任务列表.json

↓ 步骤4: 匹配灵感特征(核心)
└─ {帖子ID}_how.json × N

↓ 步骤5: 可视化结果
└─ how解构结果_可视化.html

输出位置:
../data/账号/阿里多多酱1/how解构_outputs/how_1124_v1/

🔧 配置说明

数据根目录(优先级从高到低)

  1. 环境变量:DATA_ROOT=~/Documents/数据
  2. 配置文件:config/accounts.json 中的 data_root
  3. 默认值:../data(当前配置)

输出版本(优先级从高到低)

  1. 环境变量:OUTPUT_VERSION=test_version
  2. 配置文件:config/accounts.json 中的 output_version
  3. 默认值:项目目录名(how_1124_v1)✅ 推荐

账号名称(优先级从高到低)

  1. 命令行参数:./run_all_with_config.sh 账号名
  2. 环境变量:ACCOUNT_NAME=账号名
  3. 配置文件:default_account

📝 常用命令

# 处理单个账号
./script/data_processing/run_all_with_config.sh 阿里多多酱1

# 处理所有启用的账号
./script/data_processing/run_all_with_config.sh --all

# 使用环境变量
ACCOUNT_NAME=阿里多多酱1 ./script/data_processing/run_all_with_config.sh

# 自定义输出版本
OUTPUT_VERSION=experiment ./script/data_processing/run_all_with_config.sh 阿里多多酱1

# 查看所有版本输出
ls ../data/账号/阿里多多酱1/how解构_outputs/

# 打开可视化
open ../data/账号/阿里多多酱1/how解构_outputs/how_1124_v1/visualization/how解构结果_可视化.html

📖 文档

🎨 功能亮点

1. 笛卡尔积批量计算

使用混合模型一次性计算 M×N 的特征相似度矩阵,大幅提升性能。

# lib/hybrid_similarity.py
similarity_results = await compare_phrases_cartesian(
    feature_names,      # M个特征
    persona_names,      # N个人设
    max_concurrent=100  # LLM最大并发数
)

2. 进度实时显示

进度: [████████████████████░░░░░░░░] 1234/2000 (61.7%), 预计剩余: 45秒

3. 多账号批量处理

# 一次性处理所有启用的账号
./script/data_processing/run_all_with_config.sh --all

⚙️ 依赖

  • Python 3.8+
  • 依赖库:详见 requirements.txt(如果有)

🐛 故障排除

问题:路径不存在

症状

⚠️  警告: 部分输入路径不存在!

解决

# 检查数据目录是否存在
ls -la ../data/账号/阿里多多酱1/

# 验证配置
python script/data_processing/path_config.py

问题:版本不正确

症状:输出到了错误的版本目录

解决

# 检查是否设置了环境变量
echo $OUTPUT_VERSION

# 清除环境变量
unset OUTPUT_VERSION

# 重新运行
python script/data_processing/path_config.py

📄 许可

内部项目

👤 作者

Semsevens


最后更新: 2024-11-24