4 maanden geleden · 324f66177b
--- a/enhanced_search_v2.py
+++ b/enhanced_search_v2.py
@@ -15,7 +15,6 @@ import subprocess
 
				 from typing import Dict, List, Any, Optional, Set, Tuple
			
 
				 from datetime import datetime
			
 
				 from concurrent.futures import ThreadPoolExecutor, as_completed
			
 
				-from itertools import combinations
			
 
				 
			
 
				 from openrouter_client import OpenRouterClient
			
 
				 from llm_evaluator import LLMEvaluator
			
@@ -1212,35 +1211,18 @@ class EnhancedSearchV2:
 
				 
			
 
				             logger.info(f"    候选词数量: {len(candidate_words)} (限制: {max_candidates})")
			
 
				 
			
 
				-            # 生成组合（简化策略：只生成 base_word + 1词 和 base_word + 2词）
			
 
				-            combinations_for_base = []
			
 
				-            max_additional_words = 2  # 最多额外添加2个词（生成 base_word + 1词 和 base_word + 2词）
			
 
				-
			
 
				-            for length in range(1, min(max_additional_words + 1, len(candidate_words) + 1)):
			
 
				-                for combo in combinations(candidate_words, length):
			
 
				-                    search_phrase = base_word + ' ' + ' '.join(combo)
			
 
				-                    combinations_for_base.append({
			
 
				-                        'search_word': search_phrase,
			
 
				-                        'base_word': base_word,
			
 
				-                        'candidate_words': list(combo),
			
 
				-                        'combo_length': length + 1  # +1 因为包含 base_word
			
 
				-                    })
			
 
				-
			
 
				-            logger.info(f"    生成 {len(combinations_for_base)} 个组合")
			
 
				-
			
 
				-            # LLM评估
			
 
				-            logger.info(f"    开始LLM评估...")
			
 
				-            evaluated = self.llm_evaluator.evaluate_search_words_in_batches(
			
 
				+            # LLM生成query（新方式：直接让LLM基于候选词生成query）
			
 
				+            logger.info(f"    使用LLM生成query（中心词: {base_word}）...")
			
 
				+            evaluated = self.llm_evaluator.generate_queries_from_candidates(
			
 
				                 original_feature=original_feature,
			
 
				-                search_words=[c['search_word'] for c in combinations_for_base],
			
 
				-                batch_size=50,
			
 
				-                base_word=base_word  # 传递中心词，确保生成的 source_word 包含 base_word
			
 
				+                base_word=base_word,
			
 
				+                candidate_words=candidate_words,
			
 
				+                max_queries=10
			
 
				             )
			
 
				 
			
 
				-            # 选出Top 10
			
 
				+            # 选出Top 10（已经由LLM生成方法控制数量）
			
 
				             top_10 = evaluated[:10]
			
 
				-            max_score = top_10[0]['score'] if top_10 else 0.0
			
 
				-            logger.info(f"    评估完成，Top 10 最高分: {max_score:.3f}")
			
 
				+            logger.info(f"    生成完成，共 {len(top_10)} 个query")
			
 
				 
			
 
				             # 保存分组结果 - 每个base_word有自己的available_words
			
 
				             grouped_results.append({
			
--- a/llm_evaluator.py
+++ b/llm_evaluator.py
@@ -267,6 +267,293 @@ class LLMEvaluator:
 
				 
			
 
				         return all_results
			
 
				 
			
 
				+    def generate_queries_from_candidates(
			
 
				+        self,
			
 
				+        original_feature: str,
			
 
				+        base_word: str,
			
 
				+        candidate_words: List[str],
			
 
				+        max_queries: int = 10
			
 
				+    ) -> List[Dict[str, Any]]:
			
 
				+        """
			
 
				+        基于中心词和候选词列表，让LLM生成搜索query
			
 
				+
			
 
				+        Args:
			
 
				+            original_feature: 原始特征名称
			
 
				+            base_word: 中心词
			
 
				+            candidate_words: 候选词列表
			
 
				+            max_queries: 最大query数量
			
 
				+
			
 
				+        Returns:
			
 
				+            query数组（与旧格式兼容）
			
 
				+        """
			
 
				+        logger.info(f"LLM生成query（中心词: {base_word}, 候选词: {len(candidate_words)}个）")
			
 
				+
			
 
				+        candidate_words_str = "、".join(candidate_words)
			
 
				+
			
 
				+        prompt = f"""# 角色定位
			
 
				+你是"内容创作搜索顾问"。任务：
			
 
				+围绕中心词为主体，并结合待选词中明显的 高频词/高权重词，生成完整、不重不漏、可检索的 query。
			
 
				+核心流程：
			
 
				+先判断搜索类型（具体案例 / 案例集合） → 再围绕"中心词 + 高权重词（如果有）"生成 query → 完整覆盖 → 去重 → 输出。
			
 
				+
			
 
				+# 输入
			
 
				+中心词：{base_word}
			
 
				+待选词：{candidate_words_str}
			
 
				+
			
 
				+# 核心原则
			
 
				+1.中心词优先原则：所有 query 必须围绕中心词构造，中心词在所有 query 的出现率必须 ≥ 80%
			
 
				+2.高权重词优先构造：对待选词做频次分析：同义/包含关系归并后，出现次数最高的词为"高权重主体词"，若存在高权重词 → 所有 query 必须围绕 中心词 + 高权重词，若无高权重词 → 使用中心词 + 去重词合理组合
			
 
				+3. **去重不漏** - 去重同义、保留关键差异、所有有效组合需覆盖
			
 
				+4. **query是问题** - 不包含多模态信息,例如XXvlog、视频等,如原始输入中不存在此类信息则不加入query
			
 
				+5. 组合需有语义逻辑：不能随机堆词，query 必须是自然、可搜索的有真实含义的问题句
			
 
				+6.主体与场景必须出现之一：若中心词是场景 → 等同主体优先级
			
 
				+
			
 
				+# 处理流程
			
 
				+
			
 
				+## Step 1: 词汇分析与去重
			
 
				+对输入的词汇进行分类和合并:
			
 
				+
			
 
				+**分类维度**:
			
 
				+- **主体类**: 内容核心对象(猫咪、美食、旅行地)
			
 
				+- **手法类**: 创作表现方式(拟人化、对比、测评)
			
 
				+- **特征类**: 风格特点(反差、温馨、搞笑)
			
 
				+- **场景类**: 具体情境(穿衣服、戴墨镜、吃饭)
			
 
				+- **行为类**: 创作动作(分享、记录、教程)
			
 
				+
			
 
				+**核心主体识别规则**:
			
 
				+中心词默认最高优先级
			
 
				+待选词中出现频次最高者 = 高权重主体词
			
 
				+Query 必须围绕：中心词 + 高权重词（如果有）
			
 
				+
			
 
				+**去重规则**:
			
 
				+- 同义词: 猫/猫咪 → 猫咪
			
 
				+- 包含关系归纳: 宠物猫咪/猫咪 → 猫咪
			
 
				+- 修饰词判断: 若修饰词不改变核心意图则去除,若改变则保留
			
 
				+
			
 
				+**原词保留原则**:
			
 
				+- 所有 query 中语言必须来自清洗后的词汇，允许添加：
			
 
				+  连接词（的、和、与）
			
 
				+  必要动词（分享、展示、记录）
			
 
				+  集合词（有哪些、合集、大全）
			
 
				+- 禁止任何同义替换。: 猫咪✗改为宠物猫/小猫, 服饰✗改为穿搭/衣服
			
 
				+
			
 
				+## Step 2: 词汇关系分析
			
 
				+**目标**: 确定哪些词汇可以合理组合
			
 
				+
			
 
				+**关系判断规则**:
			
 
				+1. **强关联** 可直接组合:
			
 
				+- 中心词 + 高权重主体词（必选）
			
 
				+- 中心词 + 特征词
			
 
				+- 高权重主体词 + 特征词
			
 
				+
			
 
				+2. **中等关联** 需通过主体连接:
			
 
				+   - 中心词 + 主体 + 特征
			
 
				+
			
 
				+3. **禁止组合**
			
 
				+- 特征 + 特征；特征独立成句；与中心词无关系的随机组合
			
 
				+
			
 
				+## Step 3: 判断搜索类型
			
 
				+
			
 
				+根据词汇的**具体化程度**判断搜索粒度:
			
 
				+
			
 
				+1、THEN → 类型: specific_case (具体案例)
			
 
				+IF 满足以下任一条件:
			
 
				+  1. 包含具体场景/道具/动作
			
 
				+  2. 词汇组合后可想象出明确画面
			
 
				+  3. 描述足够详细,指向单一呈现形式
			
 
				+
			
 
				+**创作者需求**:
			
 
				+找一个可以直接参考模仿的成品案例,想看"就是这样的内容"
			
 
				+
			
 
				+2、THEN → 类型: case_collection (案例集合)
			
 
				+ELSE IF 满足以下条件:
			
 
				+  1. 只有主体 + 手法/特征,缺少具体场景
			
 
				+  2. 词汇组合较抽象,无法想象单一画面
			
 
				+  3. 需要看到多个变化形式
			
 
				+
			
 
				+**创作者需求**:
			
 
				+了解这一类内容有哪些玩法,想看"这种类型都有什么"
			
 
				+
			
 
				+## Step 4: 生成完整Query列表
			
 
				+
			
 
				+### 核心原则: 词汇组合完整覆盖
			
 
				+**中心词权重规则**:
			
 
				+- 中心词必须出现在≥80%的query中
			
 
				+**组词逻辑规则**:
			
 
				+- 每个query必须遵循词汇关系矩阵中的强关联或中等关联
			
 
				+- 找案例不是找方法，query需明确找案例、案例集、集合、有哪些等适配case和案例集类型的词汇
			
 
				+
			
 
				+**严格去重规则**:
			
 
				+- 提取每个query的核心要素: [主体]+[场景/手法]+[特征/行为]
			
 
				+- 两个query的核心要素若完全相同或高度重叠(≥2个要素相同),则判定为重复
			
 
				+- 生成每个新query时立即与已生成的query对比,重复则舍弃
			
 
				+- 判断标准: 搜索意图是否相同,而非文字是否相同
			
 
				+
			
 
				+**覆盖策略**:
			
 
				+1. **主干组合** - 主体+核心手法/场景 必须覆盖
			
 
				+2. **特征叠加** - 在主干上叠加不同特征词
			
 
				+3. **表述多样** - 同一组合用不同表述方式
			
 
				+4. **避免重复** - 去除语义相同的query
			
 
				+
			
 
				+**原词保真规则**:
			
 
				+- 只能使用去重后词汇清单中的词汇
			
 
				+- 不允许用同义词替换原词
			
 
				+- 允许添加的词: 连接词(的、和、与)、必要动词(分享、展示)、集合词(有哪些、合集)
			
 
				+- 每生成一个query立即检查是否包含不在清单中的新概念词,若有则删除该query
			
 
				+
			
 
				+#### A类Query生成规则(具体案例)
			
 
				+
			
 
				+**结构**: 主体 + 具体场景/道具 + 手法/特征
			
 
				+**长度**: 6-15字
			
 
				+**语言风格**: 描述性、具象化
			
 
				+
			
 
				+**数量要求**: 根据去重后词汇丰富度生成,确保覆盖所有有意义的组合
			
 
				+- 词汇简单(2-8个): 生成2-4个query
			
 
				+- 词汇中等(9-12个): 生成4-6个query
			
 
				+- 词汇丰富(12+个): 生成6-10个query
			
 
				+
			
 
				+#### B类Query生成规则(案例集合)
			
 
				+
			
 
				+**结构**: 主体 + 手法/特征 + 集合词
			
 
				+**长度**: 6-12字
			
 
				+
			
 
				+**数量要求**: 根据去重后词汇丰富度生成
			
 
				+- 词汇简单(2-8个): 生成2-4个query
			
 
				+- 词汇中等(8-10个): 生成4-6个query
			
 
				+- 词汇丰富(10+个): 生成6-10个query
			
 
				+
			
 
				+## 质量检查标准
			
 
				+
			
 
				+生成query后,必须进行覆盖度检查:
			
 
				+
			
 
				+**检查清单**:
			
 
				+1. 词汇覆盖检查:
			
 
				+   - 列出所有去重后的词汇
			
 
				+   - 标注每个词汇出现在哪些query中
			
 
				+   - 确保去重后每个词汇至少被使用1次
			
 
				+
			
 
				+2. 组合覆盖检查:
			
 
				+- 逐个检查query是否符合词汇关系矩阵
			
 
				+- 检查是否存在弱关联或无关联的词汇组合
			
 
				+- 弱关联组合 → 删除或重写
			
 
				+
			
 
				+3. 重复检查:
			
 
				+- 提取每个query的核心要素
			
 
				+- 两两对比核心要素
			
 
				+- 核心要素一致 → 删除
			
 
				+
			
 
				+4.原词保真检查
			
 
				+- 拆解每个query的词汇
			
 
				+- 验证每个实词是否在去重后清单中
			
 
				+- 允许存在的词: 连接词、动词、集合词
			
 
				+- 不允许存在的词: 同义替换词、新概念词
			
 
				+- 发现不允许的词 → 删除该query或替换回原词
			
 
				+
			
 
				+5. 补充生成:
			
 
				+词汇未覆盖 / 关键组合缺失 → 补充生成
			
 
				+
			
 
				+# 输出
			
 
				+最终按以下格式输出结果（JSON数组格式）：
			
 
				+[
			
 
				+  {{
			
 
				+    "search_word": "猫咪服饰造型元素有哪些",
			
 
				+    "中心词": "服饰造型元素",
			
 
				+    "source_word": "猫 猫咪 服饰造型元素 传递快乐 宠物猫咪 猫咪宠物 猫咪主体",
			
 
				+    "reasoning": "判断依据说明"
			
 
				+  }},
			
 
				+  {{
			
 
				+    "search_word": "猫咪传递快乐的服饰造型元素",
			
 
				+    "中心词": "服饰造型元素",
			
 
				+    "source_word": "猫 猫咪 服饰造型元素 传递快乐 宠物猫咪 猫咪宠物 猫咪主体",
			
 
				+    "reasoning": "判断依据说明"
			
 
				+  }}
			
 
				+]
			
 
				+
			
 
				+**source_word规则**（重要）:
			
 
				+1. 格式：空格分隔的词汇
			
 
				+2. 来源：**必须且只能**从"中心词 + 待选词"中提取
			
 
				+3. 提取规则：该query实际使用到的所有原始词汇
			
 
				+4. 禁止：同义替换、添加新词
			
 
				+5. 必须包含：中心词（如果query中使用了中心词）
			
 
				+
			
 
				+# 执行顺序
			
 
				+词汇分析 → 中心词确定 → 高权重词识别 → 关系分析 → 类型判定 →
			
 
				+围绕"中心词+高权重词"生成 query → 质量检查 → 补充 → 输出
			
 
				+
			
 
				+注意：只返回JSON数组，不要其他内容。"""
			
 
				+
			
 
				+        # 调用 LLM
			
 
				+        llm_results = self.client.chat_json(prompt=prompt, max_retries=3)
			
 
				+
			
 
				+        if not llm_results or not isinstance(llm_results, list):
			
 
				+            logger.error("LLM返回格式错误")
			
 
				+            return []
			
 
				+
			
 
				+        logger.info(f"LLM生成了 {len(llm_results)} 个query")
			
 
				+
			
 
				+        # 解析并验证
			
 
				+        formatted_results = []
			
 
				+        for rank, item in enumerate(llm_results[:max_queries], 1):
			
 
				+            validated_source_word = self._validate_and_fix_source_word(
			
 
				+                llm_source_word=item.get("source_word", ""),
			
 
				+                query=item.get("search_word", ""),
			
 
				+                base_word=base_word,
			
 
				+                candidate_words=candidate_words
			
 
				+            )
			
 
				+
			
 
				+            formatted_results.append({
			
 
				+                "search_word": item.get("search_word", ""),
			
 
				+                "source_word": validated_source_word,
			
 
				+                "score": 0.0,
			
 
				+                "reasoning": item.get("reasoning", ""),
			
 
				+                "rank": rank,
			
 
				+                "original_feature": original_feature
			
 
				+            })
			
 
				+
			
 
				+        return formatted_results
			
 
				+
			
 
				+    def _validate_and_fix_source_word(
			
 
				+        self,
			
 
				+        llm_source_word: str,
			
 
				+        query: str,
			
 
				+        base_word: str,
			
 
				+        candidate_words: List[str]
			
 
				+    ) -> str:
			
 
				+        """
			
 
				+        验证并修正 LLM 输出的 source_word
			
 
				+        确保只包含"中心词 + 候选词"中的词
			
 
				+
			
 
				+        Args:
			
 
				+            llm_source_word: LLM 输出的 source_word
			
 
				+            query: 生成的 search_word
			
 
				+            base_word: 中心词
			
 
				+            candidate_words: 候选词列表
			
 
				+
			
 
				+        Returns:
			
 
				+            验证后的 source_word
			
 
				+        """
			
 
				+        words = llm_source_word.split()
			
 
				+        valid_words = []
			
 
				+
			
 
				+        # 验证每个词是否在允许列表中
			
 
				+        for word in words:
			
 
				+            if word == base_word or word in candidate_words:
			
 
				+                valid_words.append(word)
			
 
				+
			
 
				+        # 确保中心词存在（如果query中包含）
			
 
				+        if base_word in query and base_word not in valid_words:
			
 
				+            valid_words.insert(0, base_word)
			
 
				+
			
 
				+        # 去重
			
 
				+        seen = set()
			
 
				+        deduplicated = []
			
 
				+        for word in valid_words:
			
 
				+            if word not in seen:
			
 
				+                seen.add(word)
			
 
				+                deduplicated.append(word)
			
 
				+
			
 
				+        return ' '.join(deduplicated)
			
 
				+
			
 
				     def evaluate_single_note(
			
 
				         self,
			
 
				         original_feature: str,
			
--- a/run_stage7.py
+++ b/run_stage7.py
@@ -147,7 +147,7 @@ def main():
 
				     parser.add_argument(
			
 
				         '--timeout',
			
 
				         type=int,
			
 
				-        default=600,
			
 
				+        default=800,
			
 
				         help='API 超时时间（秒）（默认: 600，即10分钟）'
			
 
				     )
			
 
				     parser.add_argument(
			
--- a/stage7_analyzer.py
+++ b/stage7_analyzer.py
@@ -36,7 +36,7 @@ class Stage7DeconstructionAnalyzer:
 
				         min_score: float = 8.0,
			
 
				         skip_count: int = 0,
			
 
				         sort_by: str = 'score',
			
 
				-        timeout: int = 30,
			
 
				+        timeout: int = 800,
			
 
				         max_retries: int = 3,
			
 
				         output_dir: str = "output_v2",
			
 
				         enable_image_download: bool = True,
			
--- a/stage7_api_client.py
+++ b/stage7_api_client.py
@@ -95,7 +95,7 @@ class DeconstructionAPIClient:
 
				     def __init__(
			
 
				         self,
			
 
				         api_url: str = "http://192.168.245.150:7000/what/analysis/single",
			
 
				-        timeout: int = 30,
			
 
				+        timeout: int = 800,
			
 
				         max_retries: int = 3
			
 
				     ):
			
 
				         """