liuzhiheng 90afb6a243 update		1 mese fa
..
.cache	d051e0b901 init	1 mese fa
prompt	50b3bd45c0 prompt update	1 mese fa
README.md	57dc162e06 init	1 mese fa
cache_manager.py	57dc162e06 init	1 mese fa
clear_cache.py	57dc162e06 init	1 mese fa
clear_cache_simple.py	57dc162e06 init	1 mese fa
function_knowledge.py	90afb6a243 update	1 mese fa
llm_search_knowledge.py	e711d9a868 llm_search_knowledge update	1 mese fa
multi_search_knowledge.py	2d64d86e95 init	1 mese fa
test_detail_info.py	57dc162e06 init	1 mese fa
tools_library.py	57dc162e06 init	1 mese fa
what_reasoning_knowledge.py	98910242ae knowledge_v2 骨架代码	1 mese fa
xhs_search_knowledge.py	98910242ae knowledge_v2 骨架代码	1 mese fa

Knowledge V2 系统架构说明

整体流程梳理

function_knowledge.py (入口)
    ├── [步骤1] generate_query: 生成查询语句
    ├── [步骤2] select_tool: 选择工具
    ├──┬── [有工具]
    │  │    ├── [步骤3] extract_tool_params: 提取工具参数（通过LLM）
    │  │    └── [步骤4] call_tool: 调用工具
    │  └── [无工具] 
    │       └── [步骤4] multi_search_knowledge.py
    │                   ├── llm_search_knowledge.py
    │                   │    ├── generate_queries: 生成多个query
    │                   │    ├── search_knowledge_batch: 批量搜索
    │                   │    └── merge_knowledge: 合并多个query的结果
    │                   └── merge_knowledge: 合并多渠道结果
    └── [后台] generate_and_save_new_tool: 异步生成新工具

核心特性

1. 动态工具参数提取

问题：之前工具调用参数是硬编码的 {"keyword": query}
解决：使用LLM根据工具信息动态提取参数
优势：通用、智能、支持多参数工具
详细说明：IMPROVEMENT_SUMMARY.md

2. 结构化JSON输出

输出格式：完整的执行记录JSON，包含输入、执行过程、结果和元数据
双文件保存：
- execution_record.json - 格式化的JSON，易于阅读
- final_result.json - 系统缓存
优势：可追溯、可调试、可审计

3. Prompt和LLM交互追踪（新）⭐

完整记录：每个LLM调用都记录prompt和response
透明度：可以看到系统如何与LLM交互
调试利器：快速定位问题，优化prompt效果
详细说明：DETAILED_TRACKING.md
示例：example_detailed_output.json

示例结构：

{
  "steps": [{
    "name": "generate_query",
    "detail": {
      "prompt": "完整的prompt文本...",
      "response": "LLM的响应..."
    }
  }]
}

4. 完善的缓存系统

分级缓存结构
支持断点续传
节省资源和成本

4. 详细的日志系统

结构化日志输出
清晰的步骤标记

便于调试和监控


## 缓存策略

### 缓存目录结构

.cache/ ├── {question_hash}/ # 每个问题一个文件夹 │ ├── question.txt # 原始问题文本（方便查看） │ ├── function_knowledge/ # function_knowledge模块缓存 │ │ ├── generated_query.txt # 生成的query │ │ ├── selected_tool.txt # 选择的工具名 │ │ ├── tool_params.json # 提取的工具参数（新） │ │ ├── tool_result.json # 工具执行结果 │ │ └── final_result.txt # 最终结果 │ ├── multi_search/ # multi_search模块缓存 │ │ ├── final_knowledge.txt # 最终合并知识 │ │ └── merged_knowledge.txt # 合并后的知识 │ └── llm_search/ # llm_search模块缓存 │ ├── generated_queries.json # 生成的查询列表 │ ├── merged_knowledge.txt # 合并后的知识 │ └── search_results/ # 搜索结果 │ ├── search_result_001.txt │ ├── search_result_002.txt │ └── search_result_003.txt


### 缓存优点
1. **节省资源**：避免重复调用LLM和搜索引擎
2. **断点续传**：任何步骤失败都可以从缓存恢复
3. **调试方便**：可以查看每个步骤的中间结果
4. **性能提升**：缓存命中时速度大幅提升

### 缓存key设计
- `function_knowledge`: 使用 `question||post_info||persona_info` 组合
- `multi_search`: 使用原始 `question`
- `llm_search`: 使用原始 `question`

## 日志系统

### 日志格式

[模块] 操作状态 - 描述 ↓ 级联操作 ✓ 成功 ✗ 失败 ⚠ 警告 → 正在执行


### 日志层级

#### 1. Function Knowledge (最外层)

================================================================================ Function Knowledge - 开始处理问题: ... 帖子信息: ...

人设信息: ...

[步骤1] 生成Query... ✓ 使用缓存的Query: ... [步骤2] 选择工具... 当前可用工具数: 1 → 调用Gemini选择工具... ✓ 选择结果: wechat_search_article [步骤3] 调用工具: wechat_search_article → 调用工具，参数: {'keyword': '...'}

✓ 工具调用完成

✓ Function Knowledge 完成 (结果长度: 123)


#### 2. Multi-Search (中层)

============================================================

Multi-Search - 开始处理问题: ...

[渠道1] 调用 LLM Search... (LLM Search 内部日志) ✓ LLM Search 完成 (长度: 456) [Multi-Search] 合并多渠道知识 - 1 个渠道有效渠道: ['LLM Search'] → 调用Gemini合并多渠道知识...

✓ 多渠道知识合并完成 (长度: 450)

✓ Multi-Search 完成 (最终长度: 450)


#### 3. LLM Search (最内层)

============================================================

LLM Search - 开始处理问题: ...

[步骤1] 生成搜索Query - 问题: ... → 调用Gemini生成query... → 解析生成的query... ✓ 成功生成 3 个query:

query1
query2

query3 [步骤2] 批量搜索 - 共 3 个Query [1] 搜索Query: query1 → 调用搜索引擎... ✓ 获取知识文本 (长度: 100) ... ✓ 批量搜索完成，获得 3 个有效结果 [步骤3] 合并知识 - 共 3 个文本有效文本数量: 3/3 → 调用Gemini合并知识文本...

✓ 成功合并知识文本 (长度: 250)

✓ LLM Search 完成 (最终长度: 250)


## 使用示例

### 基本使用（启用缓存）
```python
from knowledge_v2.function_knowledge import get_knowledge

result = get_knowledge(
question="去哪儿搜索微信文章？",
post_info="无",
persona_info="游戏博主"
)

# 访问执行结果
print(f"结果类型: {result['result']['type']}")
print(f"执行时间: {result['metadata']['execution_time']:.2f}秒")

# 如果是工具调用
if result['result']['type'] == 'tool':
tool_info = result['execution']['tool_info']
print(f"工具: {tool_info['tool_name']}")
print(f"参数: {tool_info['parameters']}")

# 获取文本内容
content = result['result']['content']

禁用缓存

from knowledge_v2.function_knowledge import FunctionKnowledge

agent = FunctionKnowledge(use_cache=False)
result = agent.get_knowledge(
    question="...",
    post_info="...",
    persona_info="..."
)

查看执行记录文件

执行后会生成格式化的JSON文件：

.cache/{question_hash}/execution_record.json

可以直接打开查看完整的执行过程。

清除缓存

from knowledge_v2.cache_manager import CacheManager

cache = CacheManager()

# 清除特定问题的缓存
cache.clear("去哪儿搜索微信文章？")

# 清除所有缓存
cache.clear()

性能优化

缓存命中率统计

可通过日志中的 ✓ 使用缓存的... 标记来统计缓存命中情况

建议

首次运行：完整流程，生成所有缓存
后续运行：大部分步骤使用缓存，只在必要时调用LLM
调试时：可关闭缓存或清除特定步骤缓存
生产环境：建议启用缓存，定期清理过期缓存

故障恢复

场景1：LLM调用失败

已完成的步骤有缓存
重新运行只需重试失败步骤

场景2：搜索引擎超时

部分query已有缓存
只需重试失败的query

场景3：网络中断

所有中间结果都有缓存
恢复后从断点继续

维护建议

定期清理：建议每周清理过期缓存（>7天）
监控大小：关注 .cache 目录大小
备份重要：可备份常用问题的缓存

README.md