|
|
1 hete | |
|---|---|---|
| config | 1 hete | |
| doc | 1 hete | |
| docs | 1 hete | |
| examples | 1 hete | |
| lib | 1 hete | |
| script | 1 hete | |
| scripts | 2 hete | |
| .gitignore | 1 hete | |
| CACHE_CONFIG.md | 1 hete | |
| CACHE_LOCATION.md | 1 hete | |
| CACHE_MIGRATION_SUMMARY.md | 1 hete | |
| CARTESIAN_ARCHITECTURE.md | 1 hete | |
| README.md | 1 hete | |
| README_How解构可视化.md | 2 hete | |
| README_text_embedding.md | 1 hete | |
| README_可视化.md | 2 hete | |
| README_索引构建.md | 2 hete | |
| analyze_inspiration_results.py | 2 hete | |
| build_category_index.py | 2 hete | |
| build_note_to_all_index.py | 2 hete | |
| build_point_to_note_index.py | 2 hete | |
| extract_inspirations.py | 2 hete | |
| how_decode_v1.py | 2 hete | |
| migrate_data_to_cache.py | 1 hete | |
| run_inspiration_analysis.py | 2 hete | |
| run_step3_from_analysis.py | 2 hete | |
| step1_inspiration_match.py | 2 hete | |
| step2_incremental_match.py | 2 hete | |
| step3_generate_inspirations.py | 2 hete | |
| step4_search_result_match.py | 2 hete | |
| visualize_inspiration_points.py | 2 hete | |
| visualize_inspiration_points_backup.py | 2 hete |
# 运行完整流程
./script/data_processing/run_all_with_config.sh 阿里多多酱1
# 验证配置
python script/data_processing/path_config.py
how_1124_v1/ # 项目代码
├── config/
│ └── accounts.json # 配置文件(data_root: "../data")
├── script/
│ └── data_processing/ # 数据处理脚本
├── lib/ # 核心库
└── docs/ # 文档
../data/ # 共享数据目录
└── 账号/阿里多多酱1/
├── what单独解构/ # 输入:当前帖子
├── 用于pattern聚类/ # 输入:历史帖子
├── pattern相关文件/ # 输入:pattern聚合
└── how解构_outputs/ # 输出(版本化)
└── how_1124_v1/ # 本项目输出
├── intermediate/
├── results/
└── visualization/
how_1124_v1)../data/ 输入数据DATA_ROOT 覆盖../data/账号/{账号名}/how解构_outputs/{版本}/输入:
├─ pattern聚合结果.json
├─ 历史帖子what解构/*.json
└─ 当前帖子what解构/*.json
↓ 步骤1: 提取特征分类映射
├─ 特征名称_分类映射.json
└─ 分类层级映射.json
↓ 步骤2: 提取特征帖子来源
└─ 特征名称_帖子来源.json
↓ 步骤3: 提取当前帖子解构任务列表
└─ 当前帖子_解构任务列表.json
↓ 步骤4: 匹配灵感特征(核心)
└─ {帖子ID}_how.json × N
↓ 步骤5: 可视化结果
└─ how解构结果_可视化.html
输出位置:
../data/账号/阿里多多酱1/how解构_outputs/how_1124_v1/
DATA_ROOT=~/Documents/数据config/accounts.json 中的 data_root../data(当前配置)OUTPUT_VERSION=test_versionconfig/accounts.json 中的 output_versionhow_1124_v1)✅ 推荐./run_all_with_config.sh 账号名ACCOUNT_NAME=账号名default_account# 处理单个账号
./script/data_processing/run_all_with_config.sh 阿里多多酱1
# 处理所有启用的账号
./script/data_processing/run_all_with_config.sh --all
# 使用环境变量
ACCOUNT_NAME=阿里多多酱1 ./script/data_processing/run_all_with_config.sh
# 自定义输出版本
OUTPUT_VERSION=experiment ./script/data_processing/run_all_with_config.sh 阿里多多酱1
# 查看所有版本输出
ls ../data/账号/阿里多多酱1/how解构_outputs/
# 打开可视化
open ../data/账号/阿里多多酱1/how解构_outputs/how_1124_v1/visualization/how解构结果_可视化.html
使用混合模型一次性计算 M×N 的特征相似度矩阵,大幅提升性能。
# lib/hybrid_similarity.py
similarity_results = await compare_phrases_cartesian(
feature_names, # M个特征
persona_names, # N个人设
max_concurrent=100 # LLM最大并发数
)
进度: [████████████████████░░░░░░░░] 1234/2000 (61.7%), 预计剩余: 45秒
# 一次性处理所有启用的账号
./script/data_processing/run_all_with_config.sh --all
requirements.txt(如果有)症状:
⚠️ 警告: 部分输入路径不存在!
解决:
# 检查数据目录是否存在
ls -la ../data/账号/阿里多多酱1/
# 验证配置
python script/data_processing/path_config.py
症状:输出到了错误的版本目录
解决:
# 检查是否设置了环境变量
echo $OUTPUT_VERSION
# 清除环境变量
unset OUTPUT_VERSION
# 重新运行
python script/data_processing/path_config.py
内部项目
Semsevens
最后更新: 2024-11-24