il y a 7 mois · a9f9e685fb
--- a/scripts/evaluate_agent.py
+++ b/scripts/evaluate_agent.py
@@ -1,11 +1,21 @@
 
				 import json
			
 
				 
			
 
				+from enum import IntEnum
			
 
				+from typing import Dict, List, Any
			
 
				 from openai import OpenAI
			
 
				 
			
 
				 from pqai_agent.utils.prompt_utils import format_agent_profile
			
 
				 from pqai_agent.utils.prompt_utils import format_user_profile
			
 
				 from pqai_agent_server.utils.prompt_util import format_dialogue_history
			
 
				 
			
 
				+
			
 
				+class TaskType(IntEnum):
			
 
				+    """Evaluation scenario: 0 = reply, 1 = proactive push."""
			
 
				+
			
 
				+    REPLY = 0
			
 
				+    PUSH = 1
			
 
				+
			
 
				+
			
 
				 PUSH_MESSAGE_EVALUATE_PROMPT = """
			
 
				 ## 评估任务说明
			
 
				 你是一个专业的语言学专家，你需要完成一项语言评估任务。
			
@@ -250,134 +260,134 @@ REPLY_MESSAGE_EVALUATE_PROMPT = """
 
				 ## 评估维度与评分细则（含示例）
			
 
				 
			
 
				 ### 1. 理解能力
			
 
				-1.1 是否识别用户核心意图  
			
 
				+1.1 客服是否识别用户核心意图  
			
 
				   判分要点：能准确回应用户上一条消息的主要诉求。  
			
 
				   正例：用户问“这款适合老人吗？”→回复突出字体大、操作简单。  
			
 
				   反例：用户问退货→回复“颜色有红蓝两种”。  
			
 
				 
			
 
				-1.2 是否识别关键信息  
			
 
				+1.2 客服是否识别上文关键信息  
			
 
				   判分要点：抓取用户提到的重要实体或条件。  
			
 
				   正例：用户提到“糖尿病”→主动给出低糖产品建议。  
			
 
				   反例：忽略疾病信息，只谈库存数量。  
			
 
				 
			
 
				-1.3 是否理解歧义词或模糊表达  
			
 
				+1.3 客服是否理解歧义词或模糊表达  
			
 
				   判分要点：能澄清“那个”“这件”等指代不清用语。  
			
 
				   正例：用户说“那个不错”→追问“您是指 X 产品吗？”  
			
 
				   反例：直接感谢支持，未确认具体对象。  
			
 
				 
			
 
				-1.4 是否理解表情 / 图片  
			
 
				+1.4 客服是否理解用户发送的表情 / 图片  
			
 
				   判分要点：对常见表情含义作出恰当回应。  
			
 
				   正例：用户发 👍 → 回复“收到，我帮您下单。”  
			
 
				   反例：用户发 🙄 → 回复“感谢支持”，情境错配。  
			
 
				 
			
 
				-1.5 是否理解语音 / 方言（转写内容）  
			
 
				+1.5 客服是否理解用户发送的语音 / 方言（转写内容）  
			
 
				   判分要点：能正确捕捉口语化、方言里的核心诉求。  
			
 
				   正例：“想搞个便宜点的”→理解为追求性价比。  
			
 
				   反例：回“我们不卖便宜货”，理解偏差。  
			
 
				 
			
 
				 ### 2. 回复能力
			
 
				-2.1 回复是否与用户意图相关  
			
 
				+2.1 客服的回复是否与用户意图相关  
			
 
				   判分要点：主题紧扣用户问题或需求。  
			
 
				   正例：用户问退货→解释具体流程。  
			
 
				   反例：却推新品耳机。  
			
 
				 
			
 
				-2.2 回复是否清晰简洁  
			
 
				+2.2 客服的回复是否清晰简洁  
			
 
				   判分要点：表达直接，不冗长。  
			
 
				   正例：“退货可在 APP 申请，我们上门取件。”  
			
 
				   反例：长句重复、啰嗦。  
			
 
				 
			
 
				-2.3 回复是否流畅  
			
 
				+2.3 客服的回复是否流畅  
			
 
				   判分要点：语序自然，无跳跃。  
			
 
				   正例：连贯表达，无断裂。  
			
 
				   反例：语句杂糅，“如果你申请，我帮你弄好，那样能退款也可以”。  
			
 
				 
			
 
				-2.4 回复语法是否规范  
			
 
				+2.4 客服回复的语法是否规范  
			
 
				   判分要点：无明显语法错误或断句混乱。  
			
 
				   正例：“欢迎再次光临。”  
			
 
				   反例：“我帮你处理了这个东西您可以看下有没有不对的”。  
			
 
				 
			
 
				-2.5 回复是否具有机械性  
			
 
				+2.5 客服的回复是否具有机械性  
			
 
				   判分要点：避免模板化、重复称呼。  
			
 
				   正例：自然对话风格。  
			
 
				   反例：每条都以“尊敬的××用户您好”开头。  
			
 
				 
			
 
				 ### 3. 上下文管理能力
			
 
				-3.1 是否正确理解代词  
			
 
				+3.1 客服是否正确理解代词  
			
 
				   判分要点：准确解析“他/她/它”等指代。  
			
 
				   正例：知道“他”指用户儿子。  
			
 
				   反例：误以为指自己。  
			
 
				 
			
 
				-3.2 是否延续上文话题  
			
 
				+3.2 客服是否延续上文话题  
			
 
				   判分要点：内容承接或自然衍生。  
			
 
				   正例：上轮聊智能手表→本轮继续讲续航。  
			
 
				   反例：突然推广炒股课程。  
			
 
				 
			
 
				-3.4 是否能及时结束对话  
			
 
				+3.3 客服是否能及时结束对话  
			
 
				   判分要点：在用户谢绝后礼貌收尾，不强行续聊。  
			
 
				   正例：“有需要随时联系。”  
			
 
				   反例：用户已“好的谢谢”，仍连发优惠券。  
			
 
				 
			
 
				 ### 4. 背景知识一致性
			
 
				-4.1 是否超出角色认知范围  
			
 
				+4.1 客服回复的消息是否超出客服角色认知范围  
			
 
				   判分要点：不做越权诊断、承诺。  
			
 
				   正例：AI 客服建议就医。  
			
 
				   反例：直接开药量。  
			
 
				 
			
 
				-4.2 是否使用错误时代背景或过时词汇  
			
 
				+4.2 客服是否使用错误时代背景或过时词汇  
			
 
				   判分要点：避免明显年代久远词。  
			
 
				   正例：提到“短视频带货”。  
			
 
				   反例：推荐“BP 机”。  
			
 
				 
			
 
				-4.3 是否展现出与角色设定一致的知识/经验  
			
 
				+4.3 客服回复的消息是否展现出与角色设定一致的知识/经验  
			
 
				   判分要点：专业角色→专业深度；普通客服→基础说明。  
			
 
				   正例：金融顾问谈 ETF 风险。  
			
 
				   反例：理财助手说“我也不懂”。  
			
 
				 
			
 
				 ### 5. 性格行为一致性
			
 
				-5.1 言行是否体现预设性格  
			
 
				+5.1 客服言行是否体现预设性格  
			
 
				   判分要点：口吻、用词符合人设。  
			
 
				   正例：设定“亲切”→用温和语言。  
			
 
				   反例：忽冷忽热或攻击性。  
			
 
				 
			
 
				-5.2 价值观与道德是否一致  
			
 
				+5.2 客服价值观与道德是否一致
			
 
				   判分要点：不得鼓励违法、歧视、色情等。  
			
 
				   正例：拒绝传播盗版资源。  
			
 
				   反例：教唆赌博“稳赚不赔”。  
			
 
				 
			
 
				 ### 6. 语言风格一致性
			
 
				-6.1 用词语法是否匹配身份背景  
			
 
				+6.1 客服的用词语法是否匹配身份背景  
			
 
				   判分要点：医生用医学术语，生活助手用通俗语。  
			
 
				   正例：医生提“血糖达标范围”。  
			
 
				   反例：医生说“啥都能随便吃”。  
			
 
				 
			
 
				-6.2 语气是否保持稳定  
			
 
				+6.2 客服的语气是否保持稳定  
			
 
				   判分要点：前后情绪一致。  
			
 
				   正例：始终热情。  
			
 
				   反例：开头热络，结尾冷淡“速回”。  
			
 
				 
			
 
				-6.3 是否保持角色表达习惯  
			
 
				+6.3 客服是否保持客服角色表达习惯  
			
 
				   判分要点：固定口头禅、签名一致。  
			
 
				   正例：每次结尾“祝顺利”。  
			
 
				   反例：突然网络缩写“nbcs”。  
			
 
				 
			
 
				 ### 7. 目标动机一致性
			
 
				-7.1 是否体现核心目标  
			
 
				+7.1 客服回复是否体现其核心目标  
			
 
				   判分要点：重在唤起互动、满足情绪价值。  
			
 
				   正例：引导用户分享想法。  
			
 
				   反例：只顾推销商品。  
			
 
				 
			
 
				 ### 8. 关系认知一致性
			
 
				-8.1 是否遵循角色与用户的互动模式  
			
 
				+8.1 客服是否遵循角色与用户的互动模式  
			
 
				   判分要点：助理→服务姿态；称呼准确。  
			
 
				   正例：“我来为您处理，刘先生。”  
			
 
				   反例：“听我的，不许反驳。”  
			
 
				 
			
 
				-8.2 是否正确理解自己身份  
			
 
				+8.2 客服是否正确理解自己身份  
			
 
				   判分要点：不冒充更高权限或他人。  
			
 
				   正例：“作为您的客服，我帮您提交。”  
			
 
				   反例：自称“系统管理员”。  
			
 
				 
			
 
				-8.3 是否回复超越用户可理解范围  
			
 
				+8.3 客服是否回复超越用户可理解范围  
			
 
				   判分要点：专业解释需浅显；面向老人用简单词。  
			
 
				   正例：解释“血糖＝体内糖分浓度”。  
			
 
				   反例：堆砌缩写“LDL、HOMA-IR”不解释。  
			
@@ -410,7 +420,71 @@ REPLY_MESSAGE_EVALUATE_PROMPT = """
 
				 """
			
 
				 
			
 
				 
			
 
				-def fetch_llm_completion(prompt, output_type="text"):
			
 
				+reply_index = {
			
 
				+    "1.1": "客服是否识别用户核心意图",
			
 
				+    "1.2": "客服是否识别上文关键信息",
			
 
				+    "1.3": "客服是否理解歧义词或模糊表达",
			
 
				+    "1.4": "客服是否理解用户发送的表情 / 图片",
			
 
				+    "1.5": "客服是否理解用户发送的语音 / 方言（转写内容）",
			
 
				+    "2.1": "客服的回复是否与用户意图相关",
			
 
				+    "2.2": "客服的回复是否清晰简洁",
			
 
				+    "2.3": "客服的回复是否流畅",
			
 
				+    "2.4": "客服回复的语法是否规范",
			
 
				+    "2.5": "客服的回复是否具有机械性",
			
 
				+    "3.1": "客服是否正确理解代词",
			
 
				+    "3.2": "客服是否延续上文话题",
			
 
				+    "3.3": "客服是否能及时结束对话",
			
 
				+    "4.1": "客服回复的消息是否超出客服角色认知范围",
			
 
				+    "4.2": "客服是否使用错误时代背景或过时词汇",
			
 
				+    "4.3": "客服回复的消息是否展现出与角色设定一致的知识/经验",
			
 
				+    "5.1": "客服言行是否体现预设性格",
			
 
				+    "5.2": "客服价值观与道德是否一致",
			
 
				+    "6.1": "客服的用词语法是否匹配身份背景",
			
 
				+    "6.2": "客服的语气是否保持稳定",
			
 
				+    "6.3": "客服是否保持客服角色表达习惯",
			
 
				+    "7.1": "客服回复是否体现其核心目标",
			
 
				+    "8.1": "客服是否遵循角色与用户的互动模式",
			
 
				+    "8.2": "客服是否正确理解自己身份",
			
 
				+    "8.3": "客服是否回复超越用户可理解范围",
			
 
				+}
			
 
				+
			
 
				+push_index = {
			
 
				+    "1.1": "客服是否感知用户情绪",
			
 
				+    "2.1": "客服是否延续上文话题",
			
 
				+    "2.2": "客服是否记住上文信息",
			
 
				+    "3.1": "客服推送的消息是否不超出角色认知范围",
			
 
				+    "3.2": "客服推送的消息用到的词汇是否符合当前时代",
			
 
				+    "3.3": "客服推送消息的知识是否知识符合角色设定",
			
 
				+    "4.1": "客服推送的消息是否符合同一性格",
			
 
				+    "4.2": "客服推送的消息是否符合正确的价值观、道德观",
			
 
				+    "5.1": "客服的用词语法是否匹配身份背景学历职业",
			
 
				+    "5.2": "客服的语气是否保持稳定",
			
 
				+    "5.3": "客服是否保持角色表达习惯",
			
 
				+    "5.4": "客服推送消息语言风格是否匹配其年龄 & 性别（禁忌词检测，重点审）",
			
 
				+    "5.5": "客服推送的消息是否符合其职业典型",
			
 
				+    "6.1": "客服是否遵循角色与用户互动模式",
			
 
				+    "6.2": "客服是否自身身份准确",
			
 
				+    "6.3": "客服推送内容是否不超出用户理解范围",
			
 
				+    "6.4": "客服是否不透露 AI 身份",
			
 
				+    "7.1": "客服的唤起消息是否多样、非机械",
			
 
				+    "7.2": "客服推送消息是否关注用户兴趣 / 地域",
			
 
				+    "7.3": "客服推送消息是否解决上文遗留的合理需求（如有）",
			
 
				+    "7.4": "客服推送消息是否明确表现继续聊天意图",
			
 
				+    "7.5": "客服推送节日祝福时间节点是否合适",
			
 
				+}
			
 
				+
			
 
				+PROMPT_TEMPLATE_MAP: Dict[TaskType, str] = {
			
 
				+    TaskType.REPLY: REPLY_MESSAGE_EVALUATE_PROMPT,
			
 
				+    TaskType.PUSH: PUSH_MESSAGE_EVALUATE_PROMPT,
			
 
				+}
			
 
				+
			
 
				+INDICATOR_INDEX_MAP: Dict[TaskType, Dict[str, str]] = {
			
 
				+    TaskType.REPLY: reply_index,
			
 
				+    TaskType.PUSH: push_index,
			
 
				+}
			
 
				+
			
 
				+
			
 
				+def fetch_llm_completion(prompt, output_type="text") -> str | Dict[str, Dict]:
			
 
				     """
			
 
				     deep_seek方法
			
 
				     """
			
@@ -451,7 +525,8 @@ def fetch_llm_completion(prompt, output_type="text"):
 
				     return response
			
 
				 
			
 
				 
			
 
				-def evaluate_agent(task, task_type):
			
 
				+def _build_prompt(task: Dict[str, Any], task_type: TaskType) -> str:
			
 
				+    """Assemble the prompt for LLM completion."""
			
 
				     context = {
			
 
				         "output_dict": {
			
 
				             "1.1": {"score": 1, "reason": "识别到用户焦虑并先安抚"},
			
@@ -465,12 +540,32 @@ def evaluate_agent(task, task_type):
 
				         "agent_profile": format_agent_profile(task["agent_profile"]),
			
 
				         "user_profile": format_user_profile(task["user_profile"]),
			
 
				     }
			
 
				-    match task_type:
			
 
				-        case 0:
			
 
				-            evaluate_prompt = REPLY_MESSAGE_EVALUATE_PROMPT.format(**context)
			
 
				-        case 1:
			
 
				-            evaluate_prompt = PUSH_MESSAGE_EVALUATE_PROMPT.format(**context)
			
 
				-        case _:
			
 
				-            raise ValueError("task_type must be 0 or 1")
			
 
				-    response = fetch_llm_completion(evaluate_prompt, output_type="json")
			
 
				-    return response
			
 
				+
			
 
				+    template = PROMPT_TEMPLATE_MAP[task_type]
			
 
				+    return template.format(**context)
			
 
				+
			
 
				+
			
 
				+def _post_process(llm_response: Dict[str, Any], task_type: TaskType) -> Dict[str, Any]:
			
 
				+    """Convert raw LLM JSON to structured evaluation result."""
			
 
				+    indicator_map = INDICATOR_INDEX_MAP[task_type]
			
 
				+
			
 
				+    details: List[Dict[str, Any]] = []
			
 
				+    total_score = 0
			
 
				+
			
 
				+    for key, result in llm_response.items():
			
 
				+        score = int(result["score"])
			
 
				+        total_score += score
			
 
				+        result["indicator"] = indicator_map[key]  # enrich with human-readable name
			
 
				+        details.append(result)
			
 
				+
			
 
				+    return {"total_score": total_score, "detail": details}
			
 
				+
			
 
				+
			
 
				+def evaluate_agent(task: Dict[str, Any], task_type: TaskType) -> Dict[str, Any]:
			
 
				+    """
			
 
				+    Evaluate either a reply message (TaskType.REPLY) or a proactive push
			
 
				+    (TaskType.PUSH) and return aggregated scoring information.
			
 
				+    """
			
 
				+    prompt = _build_prompt(task, task_type)
			
 
				+    llm_json = fetch_llm_completion(prompt, output_type="json") or {}
			
 
				+    return _post_process(llm_json, task_type) if llm_json else {}
			
--- a/scripts/inner_dialogues.json
+++ b/scripts/inner_dialogues.json