在检查缓存时发现了一个孤立的缓存目录:
位置: /Users/semsevens/Desktop/workspace/daily/1113/how_1121_v2/script/data_processing/cache/
大小: 105M(包含 26,931 个文件)
这个孤立缓存目录的产生原因:
lib/text_embedding.py 和 lib/semantic_similarity.py 使用相对路径 cache/text_embedding/ 作为默认缓存目录script/data_processing/ 目录运行脚本时,缓存会在当前工作目录下创建script/data_processing/cache/ 下生成了大量缓存文件# 合并 text_embedding 缓存(26,931 个文件)
rsync -av script/data_processing/cache/text_embedding/ ~/cache/text_embedding/
# 合并 semantic_similarity 缓存
cp -R script/data_processing/cache/semantic_similarity/* ~/cache/semantic_similarity/
# 删除孤立缓存目录
rm -rf script/data_processing/cache/
find /Users/semsevens/Desktop/workspace/daily/1113/how_1121_v2 -type d -name "cache"
# 结果:无输出,确认项目中已无其他孤立缓存目录
~/cache~/cache/
├── text_embedding/ # 105M (26,981 files) - 向量相似度缓存
├── semantic_similarity/ # 122M (31,307 files) - 语义相似度缓存
├── data/ # 1.5M - 数据缓存
│ ├── search/ # 搜索结果缓存
│ ├── detail/ # 详情数据缓存
│ └── tools_list/ # 工具列表缓存
└── xhs_blogger/ # 516K - 博主数据缓存
已在 ~/.zshrc 中设置:
export CACHE_ROOT=~/cache
这确保了所有新的缓存都会统一存储在 ~/cache/ 目录下。
lib/config.py 提供统一的缓存路径管理get_cache_dir() 获取缓存路径推荐做法:
# 从项目根目录运行
cd /Users/semsevens/Desktop/workspace/daily/1113/how_1121_v2
python script/data_processing/your_script.py
避免做法:
# 不要从 script/data_processing/ 目录运行
cd script/data_processing
python your_script.py # 可能在当前目录创建缓存
如果想验证缓存配置是否正确:
from lib.config import get_cache_root, get_cache_dir
# 检查缓存根目录
print(f"缓存根目录: {get_cache_root()}")
# 应输出: /Users/semsevens/cache
# 检查具体模块的缓存目录
print(f"text_embedding 缓存: {get_cache_dir('text_embedding')}")
# 应输出: /Users/semsevens/cache/text_embedding
print(f"semantic_similarity 缓存: {get_cache_dir('semantic_similarity')}")
# 应输出: /Users/semsevens/cache/semantic_similarity
定期检查缓存大小:
# 查看缓存大小
du -sh ~/cache/*/
# 如果需要清理旧缓存
rm -rf ~/cache/text_embedding/*
rm -rf ~/cache/semantic_similarity/*
✅ 已完成:
~/cache/✅ 已预防:
lib/config.py 统一管理缓存路径🎯 结果:
所有缓存现在都统一存储在 ~/cache/ 目录下,不会再出现孤立缓存的问题。