vor 8 Monaten · e0d1e8f0f9
--- a/src/agent/query_agent.py
+++ b/src/agent/query_agent.py
@@ -9,7 +9,9 @@ import json
 
				 from ..tools.prompts import (
			
 
				     STRUCTURED_TOOL_DEMAND_PROMPT,
			
 
				     CLASSIFICATION_PROMPT,
			
 
				-    QUERY_CLASSIFICATION_PROMPT
			
 
				+    QUERY_CLASSIFICATION_PROMPT,
			
 
				+    WHAT_CLASSIFICATION_PROMPT,
			
 
				+    PATTERN_CLASSIFICATION_PROMPT
			
 
				 )
			
 
				 from ..database.models import QueryTaskDAO, QueryTaskStatus, logger
			
 
				 
			
@@ -23,8 +25,7 @@ class AgentState(TypedDict):
 
				     refined_queries: List[str]
			
 
				     result_queries: List[Dict[str, str]]
			
 
				     knowledgeType: str
			
 
				-    content_dimension: str  # 内容类型的维度: How / What / Pattern
			
 
				-    is_query_type: bool  # 是否为可处理的查询类型
			
 
				+    query_type: str  # 问题类型: How / What / Pattern
			
 
				 
			
 
				 
			
 
				 class QueryGenerationAgent:
			
@@ -49,6 +50,18 @@ class QueryGenerationAgent:
 
				         # 创建状态图
			
 
				         self.graph = self._create_graph()
			
 
				     
			
 
				+    def _normalize_query_type(self, query_type: str) -> str:
			
 
				+        """统一规范化query_type为首字母大写格式（How/What/Pattern）"""
			
 
				+        query_type_lower = query_type.strip().lower()
			
 
				+        if query_type_lower == "how":
			
 
				+            return "How"
			
 
				+        elif query_type_lower == "what":
			
 
				+            return "What"
			
 
				+        elif query_type_lower == "pattern":
			
 
				+            return "Pattern"
			
 
				+        else:
			
 
				+            return query_type  # 返回原值
			
 
				+    
			
 
				     def _create_graph(self) -> StateGraph:
			
 
				         """创建LangGraph状态图"""
			
 
				         workflow = StateGraph(AgentState)
			
@@ -188,21 +201,13 @@ class QueryGenerationAgent:
 
				                 data = self._extract_json_from_text(text)
			
 
				             
			
 
				             dimension = data.get("所属维度", "").strip()
			
 
				-            state["content_dimension"] = dimension
			
 
				-            
			
 
				-            # 判断是否为可处理的查询类型（目前仅支持How类型）
			
 
				-            state["is_query_type"] = dimension == "How"
			
 
				+            # 统一为首字母大写格式（How/What/Pattern）
			
 
				+            dimension = self._normalize_query_type(dimension)
			
 
				+            state["query_type"] = dimension
			
 
				+            logger.info(f"问题类型设置为: {dimension}")
			
 
				             
			
 
				-            if not state["is_query_type"]:
			
 
				-                # 不支持的类型，标记任务失败
			
 
				-                error_msg = f"暂不支持{dimension}类型的内容问题，当前仅支持How类型"
			
 
				-                logger.info(error_msg)
			
 
				-                if state.get("task_id", 0) > 0:
			
 
				-                    self.task_dao.mark_task_failed(state["task_id"], error_msg)
			
 
				-                state["result_queries"] = []
			
 
				         except Exception as e:
			
 
				             logger.error(f"内容维度分类失败: {e}")
			
 
				-            state["is_query_type"] = False
			
 
				             if state.get("task_id", 0) > 0:
			
 
				                 self.task_dao.mark_task_failed(state["task_id"], f"分类失败: {str(e)}")
			
 
				             state["result_queries"] = []
			
@@ -210,14 +215,37 @@ class QueryGenerationAgent:
 
				         return state
			
 
				     
			
 
				     def _route_after_content_classify(self, state: AgentState) -> str:
			
 
				-        """根据内容分类结果路由：支持的类型 -> EXPAND；不支持 -> UNSUPPORTED"""
			
 
				-        return "EXPAND" if state.get("is_query_type", False) else "UNSUPPORTED"
			
 
				+        """根据内容分类结果路由：所有类型都支持扩展"""
			
 
				+        query_type = state.get("query_type", "")
			
 
				+        # 支持 How / What / Pattern 三种类型
			
 
				+        if query_type in ["How", "What", "Pattern"]:
			
 
				+            return "EXPAND"
			
 
				+        else:
			
 
				+            # 未识别的类型，不支持
			
 
				+            logger.warning(f"未识别的问题类型: {query_type}")
			
 
				+            return "UNSUPPORTED"
			
 
				     
			
 
				     def _expand_content_queries(self, state: AgentState) -> AgentState:
			
 
				-        """使用QUERY_CLASSIFICATION_PROMPT扩展内容类型的查询词"""
			
 
				+        """根据问题类型选择相应的PROMPT扩展内容查询词"""
			
 
				         question = state["question"]
			
 
				+        query_type = state.get("query_type", "How")
			
 
				+        
			
 
				+        # 根据query_type选择对应的PROMPT（值已在分类阶段规范化为How/What/Pattern）
			
 
				+        if query_type == "How":
			
 
				+            classification_prompt = QUERY_CLASSIFICATION_PROMPT
			
 
				+        elif query_type == "What":
			
 
				+            classification_prompt = WHAT_CLASSIFICATION_PROMPT
			
 
				+        elif query_type == "Pattern":
			
 
				+            classification_prompt = PATTERN_CLASSIFICATION_PROMPT
			
 
				+        else:
			
 
				+            # 默认使用How类型的PROMPT
			
 
				+            classification_prompt = QUERY_CLASSIFICATION_PROMPT
			
 
				+            logger.warning(f"未识别的问题类型 {query_type}，使用默认How类型PROMPT")
			
 
				+        
			
 
				+        logger.info(f"使用{query_type}类型的PROMPT进行查询扩展")
			
 
				+        
			
 
				         prompt = ChatPromptTemplate.from_messages([
			
 
				-            SystemMessage(content=QUERY_CLASSIFICATION_PROMPT),
			
 
				+            SystemMessage(content=classification_prompt),
			
 
				             HumanMessage(content=question)
			
 
				         ])
			
 
				         try:
			
@@ -460,8 +488,7 @@ class QueryGenerationAgent:
 
				             "refined_queries": [],
			
 
				             "result_queries": [],
			
 
				             "knowledgeType": "",
			
 
				-            "content_dimension": "",
			
 
				-            "is_query_type": False
			
 
				+            "query_type": ""
			
 
				         }
			
 
				         
			
 
				         try:
			
--- a/src/tools/prompts.py
+++ b/src/tools/prompts.py
@@ -63,7 +63,7 @@ CLASSIFICATION_PROMPT = """
 
				 - 副词：程度或方式，如非常、快速、缓慢、极端、对比地。
			
 
				 - 补充要素：钩子、冲突、故事结构、节奏感、视觉风格、声音与配乐、符号、品牌调性、传播元素（标题、封面、标签）、感知要素（共鸣感、差异感、信任感）。
			
 
				 
			
 
				-【内容pattern（内容模式 / 内容范式）】
			
 
				+【内容Pattern（内容模式 / 内容范式）】
			
 
				 - 定义:内容 Pattern 是指在内容创作、传播与消费全链路中，基于用户认知习惯与内容目标形成的、可复用的规律性结构 / 逻辑框架。
			
 
				     - 其核心属性包括：
			
 
				     - 1. 规律性（贴合用户信息接收逻辑，如对冲突、故事的天然敏感度，非随机设计）；
			
@@ -72,16 +72,16 @@ CLASSIFICATION_PROMPT = """
 
				 
			
 
				 
			
 
				 # Loop 机制
			
 
				-1. 初步尝试分类：将 query 词放入上述的 How / What / pattern 任一环节。  
			
 
				+1. 初步尝试分类：将 query 词放入上述的 How / What / Pattern 任一环节。  
			
 
				 2. 如果无法直接分类 → 启动 Loop：结合目标（短视频 & 图文创作的全流程拆解，从0到1到爆款，让小白能理解所有题材的方法），重新分析 query 词的语义，再次判断最合适的分类。  
			
 
				-3. 必须给出最终分类，不允许保留“未分类”或模糊标签。
			
 
				+3. 必须给出最终分类，不允许保留"未分类"或模糊标签。
			
 
				 
			
 
				 # 输出格式
			
 
				 仅输出以下 JSON 格式（严格保持）：
			
 
				 
			
 
				 {
			
 
				   "query": "输入的 query 词",
			
 
				-  "所属维度": "How / What / pattern",
			
 
				+  "所属维度": "How / What / Pattern",
			
 
				   "分类说明": "简要说明分类依据或理由（如语义倾向、关键词特征、关联动作等）"
			
 
				 }
			
 
				 """
			
@@ -191,3 +191,195 @@ QUERY_CLASSIFICATION_PROMPT = """
 
				     }
			
 
				     
			
 
				 """
			
 
				+
			
 
				+# What类型问题扩展
			
 
				+WHAT_CLASSIFICATION_PROMPT = """
			
 
				+# 系统角色与目标
			
 
				+你是一个“内容创作领域的Query扩展专家”。  
			
 
				+你的目标是：针对输入的query问题，生成一组高质量的扩展query词，用于查找与内容创作相关的有效知识，并服务于整体目标——构建内容创作知识库，帮助小白用户理解和应用。
			
 
				+
			
 
				+---
			
 
				+
			
 
				+# 背景与知识框架
			
 
				+内容创作知识主要分为三类：How、What、Pattern。  
			
 
				+本次任务重点是 **What（创作要素 / 内容里有什么）**，即明确内容创作的核心构成要素，帮助创作者清晰理解“内容里包含什么”，确保内容结构完整、要素清晰。
			
 
				+
			
 
				+- What 的体系遵循 **从宏观框架到微观细节、从整体定位到局部元素的逻辑层级**，包括：  
			
 
				+  1. **内容框架What要素**：内容形式、故事结构、整体节奏等；  
			
 
				+  2. **整体风格What要素**：受众形成明确的整体印象，赋予内容独特气质，包括视觉风格、声音风格、语言风格等；  
			
 
				+  3. **局部关键What要素**：构成内容“血肉”的核心主体，是承载主题和信息的直接载体。包括：  
			
 
				+     - **名词**：角色、场景、物件、工具、抽象概念等；  
			
 
				+     - **动词**：展示、转折、对比、讲解、互动等动作或过程；  
			
 
				+     - **形容词**：美丽、梦幻、真实、幽默、夸张等状态或属性；  
			
 
				+     - **副词**：非常、快速、缓慢、极端、对比地等程度或方式；  
			
 
				+     - **策略性要素**：钩子、冲突、故事结构、节奏感、视觉风格、声音与配乐、符号、品牌调性、传播元素（标题、封面、标签）、感知要素（共鸣感、差异感、信任感）等。
			
 
				+
			
 
				+---
			
 
				+
			
 
				+# 任务说明
			
 
				+1. 输入：用户提供的一个query问题（与内容创作相关）。  
			
 
				+2. 输出：  
			
 
				+   1）原问题；  
			
 
				+   2）扩展query词（**可分多级**，从粗颗粒度到细颗粒度，视问题复杂性而定）；  
			
 
				+   3）每个扩展query词的扩展原因（说明生成方法与逻辑，方便后续迭代分析）；  
			
 
				+   4）每组扩展的query词最多保留**最精品的1-3组query问题**。  
			
 
				+
			
 
				+---
			
 
				+
			
 
				+# 操作步骤
			
 
				+1. **理解输入query**  
			
 
				+   - 分析query的意图和目标；  
			
 
				+   - 判断query属于内容创作的哪类知识（本次为What类）；  
			
 
				+   - 识别query是否涉及内容框架、整体风格或局部关键要素等。
			
 
				+
			
 
				+2. **多级query扩展**  
			
 
				+   - **粗颗粒度**：从整体框架和核心要素概括原问题，生成泛化query词，在原问题的基础上，生成泛化query词，新query词会比原query词更上一层级，覆盖面更大的query问题；；  
			
 
				+   - **细颗粒度**：结合具体内容形式、局部元素或表达策略细化query；  
			
 
				+   - 可根据需要生成多层级query词，覆盖宏观到微观的要素层面；  
			
 
				+   - 参考<示例>：  
			
 
				+     <示例>
			
 
				+     {原问题：情感类视频内容中有哪些容易引发共鸣的视觉要素？
			
 
				+     粗颗粒度：情感内容的视觉构成 / 共鸣型内容的核心要素  
			
 
				+     细颗粒度：视频中灯光、色彩、镜头语言的视觉要素 / 情绪递进中角色表情和动作的核心要素}
			
 
				+     </示例>
			
 
				+
			
 
				+3. **Loop审视**  
			
 
				+   - 检查初步生成的query是否与原问题主题中的“内容要素”逻辑一致；  
			
 
				+   - 分析query是否存在互补或差异化角度（如不同风格或表达层面的构成点）；  
			
 
				+   - 保留高质量query，去除无关或重复的query；  
			
 
				+
			
 
				+4. **扩展原因说明**  
			
 
				+   - 每个query词需附上生成方法或逻辑，如“由宏观框架抽象而来”“结合具体局部元素细化而来”“从整体风格角度提供互补要素”等。
			
 
				+
			
 
				+---
			
 
				+
			
 
				+# 输出格式
			
 
				+请**严格按照以下格式输出**，不要在JSON代码块前后添加任何额外的解释或说明文字。：
			
 
				+  {
			
 
				+    "original_query": "在此处填写用户输入的原始问题",
			
 
				+    "expanded_queries": {
			
 
				+      "coarse_grained": [
			
 
				+        {
			
 
				+          "query": "<粗颗粒度扩展出的query词1>",
			
 
				+          "reason": "<扩展原因与方法1，例如：从整体框架和核心要素层面抽象概括>"
			
 
				+        },
			
 
				+        {
			
 
				+          "query": "<粗颗粒度扩展出的query词2>",
			
 
				+          "reason": "<扩展原因与方法2>"
			
 
				+        }
			
 
				+      ],
			
 
				+      "fine_grained": [
			
 
				+        {
			
 
				+          "query": "<细颗粒度扩展出的query词1>",
			
 
				+          "reason": "<扩展原因与方法1，例如：结合具体内容形式或局部要素进行细化>"
			
 
				+        },
			
 
				+        {
			
 
				+          "query": "<细颗粒度扩展出的query词2>",
			
 
				+          "reason": "<扩展原因与方法2>"
			
 
				+        }
			
 
				+      ],
			
 
				+      "complementary_or_differentiated": [
			
 
				+        {
			
 
				+          "query": "<互补或差异化角度的query词1>",
			
 
				+          "reason": "<扩展原因与方法1，例如：从不同风格或表达维度提供互补视角>"
			
 
				+        }
			
 
				+      ]
			
 
				+    }
			
 
				+  }
			
 
				+"""
			
 
				+
			
 
				+# Pattern类型问题扩展
			
 
				+PATTERN_CLASSIFICATION_PROMPT = """
			
 
				+# 系统角色与目标
			
 
				+# 系统角色与目标
			
 
				+你是一个“内容创作领域的Query扩展专家”。  
			
 
				+你的目标是：针对输入的query问题，生成一组高质量的扩展query词，用于查找与内容创作相关的有效知识，并服务于整体目标——构建内容创作知识库，帮助小白用户理解和应用。
			
 
				+
			
 
				+---
			
 
				+
			
 
				+# 背景与知识框架
			
 
				+内容创作知识主要分为三类：How、What、Pattern。  
			
 
				+本次任务重点是 **Pattern（内容规律 / 逻辑框架）**，即在内容创作、传播与消费的全链路中，基于用户认知习惯与内容目标形成的、可复用的规律性结构与逻辑框架。  
			
 
				+
			
 
				+- Pattern 的核心属性包括：  
			
 
				+  1. **规律性**：贴合用户信息接收逻辑（如冲突、故事、反转、情绪节奏等），体现非随机设计；  
			
 
				+  2. **目的性**：服务于明确的内容目标（如知识传递、情感共鸣、传播裂变等）；  
			
 
				+  3. **可复制性**：提供内容创作的“骨架模板”，允许在不同主题中灵活填充差异化细节，实现“形同质异”的表达。  
			
 
				+
			
 
				+- Pattern类知识通常涉及的分类（采用“点-线-面”结构）：  
			
 
				+  - **点（小颗粒目标）**：获取创作灵感、寻找灵感来源、捕捉用户兴趣点、洞察心理触发因素；  
			
 
				+  - **线（中颗粒目标）**：选定内容品类、产生选题、确定内容情感基调、规划内容节奏或叙事顺序；  
			
 
				+  - **面（大颗粒目标）**：  
			
 
				+    - 创作文字内容：故事脚本、开头/正文/结尾、标题优化、文案节奏与情绪铺垫；  
			
 
				+    - 制作视觉内容：图片处理（滤镜、文字叠加、色彩调整）、封面设计、视频画面布局；  
			
 
				+    - 社交与传播：话题标签选择、内容发布策略、跨平台适配；  
			
 
				+    - 全链路整合：内容与目标匹配规律、用户心理触发路径、复用模板设计；  
			
 
				+  - 以上目标可以结合具体品类/主题/场景进行进一步细化，形成可直接生成query的问题。
			
 
				+
			
 
				+---
			
 
				+
			
 
				+# 任务说明
			
 
				+1. 输入：用户提供的一个query问题（与内容创作相关）。  
			
 
				+2. 输出：  
			
 
				+   1）原问题；  
			
 
				+   2）扩展query词（可分多级，从粗颗粒度到细颗粒度，覆盖Pattern类知识“点-线-面”目标）；  
			
 
				+   3）每个扩展query词的扩展原因（说明生成方法与逻辑，方便后续迭代分析）；  
			
 
				+   4）每组扩展的query词最多保留**最精品的1-3组query问题**。  
			
 
				+
			
 
				+---
			
 
				+
			
 
				+# 操作步骤
			
 
				+1. **理解输入query**  
			
 
				+   - 分析query的意图和目标；  
			
 
				+   - 判断query属于内容创作的哪类知识（本次为Pattern类）；  
			
 
				+   - 识别query是否涉及创作结构、心理触发逻辑、叙事节奏、信息排列、情感递进等规律性特征。  
			
 
				+
			
 
				+2. **多级query扩展**  
			
 
				+在原输入query问题基础上进行**粗颗粒度**和**细颗粒度**的问题拓展
			
 
				+   - **粗颗粒度**：从内容规律和结构框架角度概括原问题，在原问题的基础上，生成泛化query词，新query词会比原query词更上一层级，覆盖面更大的query问题；  
			
 
				+   - **细颗粒度**：结合具体内容类型（图文、视频、知识科普、情绪共鸣等）细化出更具体的query词；  
			
 
				+   - 可根据需要生成多种分级query词，确保覆盖不同Pattern类型；  
			
 
				+   - 参考<示例>：  
			
 
				+     <示例>
			
 
				+     {原问题：如何构建一篇让人产生共鸣的情感文案结构？
			
 
				+     粗颗粒度问题：用户共情能力强的文章结构有什么？
			
 
				+     细颗粒度问题：萌宠类图文让用户觉得有趣的内容选题模式有哪些？
			
 
				+     }
			
 
				+     </示例>
			
 
				+
			
 
				+3. **Loop审视**  
			
 
				+   - 检查初步生成的query是否与原问题主题的规律性与逻辑性一致；  
			
 
				+   - 分析query是否存在互补或差异化的Pattern角度；  
			
 
				+   - 保留高质量query，去除无关或重复的query；  
			
 
				+
			
 
				+4. **扩展原因说明**  
			
 
				+   - 每个query词都需附上生成方法或逻辑，如“由内容结构规律抽象而来”“结合具体创作类型细化而来”“提供互补Pattern角度而来”等。
			
 
				+
			
 
				+---
			
 
				+
			
 
				+# 输出格式
			
 
				+请**严格按照以下JSON格式输出**，不要在JSON代码块前后添加任何额外的解释或说明文字。：
			
 
				+{
			
 
				+  "original_query": "在此处填写用户输入的原始问题",
			
 
				+  "expanded_queries": {
			
 
				+    "coarse_grained": [
			
 
				+      {
			
 
				+        "query": "<粗颗粒度扩展出的query词1>",
			
 
				+        "reason": "<扩展原因与方法1，例如：从内容规律与框架层面进行抽象概括>"
			
 
				+      }
			
 
				+    ],
			
 
				+    "fine_grained": [
			
 
				+      {
			
 
				+        "query": "<细颗粒度扩展出的query词1>",
			
 
				+        "reason": "<扩展原因与方法1，例如：结合具体内容类型或创作结构进行细化>"
			
 
				+      }
			
 
				+    ],
			
 
				+    "complementary_or_differentiated": [
			
 
				+      {
			
 
				+        "query": "<互补或差异化角度的query词1>",
			
 
				+        "reason": "<扩展原因与方法1，例如：提供一个不同结构模式的互补Pattern>"
			
 
				+      }
			
 
				+    ]
			
 
				+  }
			
 
				+}
			
 
				+"""