2 months ago · 402ce77019
--- a/api/search.py
+++ b/api/search.py
@@ -6,7 +6,8 @@ from schemas import ResponseWrapper
 
															 from schemas.schemas import ContentParam, DatasetParam
														
 
															 from service.content_service import get_contents, add_contents, get_content
														
 
															 from service.dataset_service import get_datasets, add_datasets
														
 
															-from utils.embedding_utils import get_embedding_content_data
														
 
															+from service.search_service import query_data
														
 
															+from utils.deepseek_utils import generate_summary_query
														
 
															 router = APIRouter()
														
@@ -15,15 +16,25 @@ executor = ThreadPoolExecutor(max_workers=10)
 
															 @router.get("/query", response_model=ResponseWrapper)
														
 
															-async def query_keyword(query, datasetIds):
														
 
															-    print(query)
														
 
															-    print(datasetIds)
														
 
															-    embedding_res = get_embedding_content_data(query, datasetIds.split(','))
														
 
															-    res = {'results': embedding_res}
														
 
															+async def query(query, datasetIds):
														
 
															+    res = query_data(query, datasetIds.split(','))
														
 
															+    data = {'results': res}
														
 
															     return ResponseWrapper(
														
 
															         status_code=200,
														
 
															         detail="success",
														
 
															-        data=res
														
 
															+        data=data
														
 
															+    )
														
 
															+
														
 
															+
														
 
															+@router.get("/chat", response_model=ResponseWrapper)
														
 
															+async def chat(query, datasetIds):
														
 
															+    res = query_data(query, datasetIds.split(','))
														
 
															+    chat_res = generate_summary_query(query, res)
														
 
															+    data = {'results': res, 'chat_res': chat_res}
														
 
															+    return ResponseWrapper(
														
 
															+        status_code=200,
														
 
															+        detail="success",
														
 
															+        data=data
														
 
															     )
														
@@ -56,8 +67,9 @@ async def dataset_list():
 
															         data=data
														
 
															     )
														
 
															+
														
 
															 @router.post("/dataset/add", response_model=ResponseWrapper)
														
 
															-async def get_dataset(dataset_param : DatasetParam):
														
 
															+async def get_dataset(dataset_param: DatasetParam):
														
 
															     res = add_datasets(dataset_param)
														
 
															     return ResponseWrapper(
														
 
															         status_code=200,
														
@@ -73,4 +85,4 @@ async def content_get(docId):
 
															         status_code=200,
														
 
															         detail="success",
														
 
															         data=data
														
 
															-    )
														
 
															+    )
														
--- a/service/search_service.py
+++ b/service/search_service.py
@@ -7,7 +7,7 @@ from data_models.content_chunks import ContentChunks
 
															 from data_models.dataset import Dataset
														
 
															-def get_embedding_data(query, dataset_ids, limit=10):
														
 
															+def search_data(query, dataset_ids, limit=10):
														
 
															     try:
														
 
															         response = requests.post(
														
 
															             url='http://61.48.133.26:8001/api/search',
														
@@ -25,10 +25,10 @@ def get_embedding_data(query, dataset_ids, limit=10):
 
															         logger.error(e)
														
 
															-def get_embedding_content_data(query, dataset_ids):
														
 
															+def query_data(query, dataset_ids):
														
 
															     res = []
														
 
															     db_helper = DBHelper()
														
 
															-    results = get_embedding_data(query, dataset_ids)
														
 
															+    results = search_data(query, dataset_ids)
														
 
															     if results:
														
 
															         for result in results:
														
 
															             content_chunk = db_helper.get(ContentChunks, doc_id=result['doc_id'], chunk_id=result['chunk_id'])
														
--- a/utils/deepseek_utils.py
+++ b/utils/deepseek_utils.py
@@ -1,189 +1,54 @@
 
															-from typing import List
														
 
															 import json
														
 
															 from openai import OpenAI
														
 
															+from service.search_service import query_data
														
 
															-def create_segmentation_prompt(text):
														
 
															-    prompt = f"""
														
 
															-请对以下文本进行分段处理，要求如下：
														
 
															-
														
 
															-1. **内容相近原则**：将语义相近、主题一致的内容划分到同一段落
														
 
															-2. **长度适中**：每段不要太长（一般不超过200字）也不要太短（一般不少于50字）
														
 
															-3. **语意完整**：确保每段都能表达一个相对完整的意思或观点
														
 
															-4. **结构清晰**：保持原文的逻辑顺序，不要改变原意
														
 
															-5. **过渡自然**：段落之间应有合理的过渡或衔接
														
 
															-6. **关键词提取**：提取5-8个最能代表当前分析范围（整体或段落）核心内容的关键词或短语。避免使用过于通用和宽泛的词汇。
														
 
															-7. **实体提取**：识别并分类以下类型的实体（如果存在）：
														
 
															-    *   人物姓名、别名、称号。
														
 
															-    *   组织、公司、机构、政府部门。
														
 
															-    *   地点、国家、城市、区域。
														
 
															-    *   绝对或相对的日期、时间、年份、时期。
														
 
															-    *   产品、作品、物品的名称。
														
 
															-    *   历史事件、会议、活动名称。
														
 
															-    （*注：实体需要去重）
														
 
															-
														
 
															-请直接输出分段后的文本，不需要额外解释或标注
														
 
															-
														
 
															-请返回以下JSON格式：
														
 
															-{{
														
 
															-  "segments": [
														
 
															-    {{
														
 
															-      "id": 1,
														
 
															-      "content": "第一段内容",
														
 
															-      "summary": "本段摘要",
														
 
															-      "keywords": ["关键词1", "关键词2", ...],
														
 
															-      "entities": ["实体1", "实体2", ...]
														
 
															-    }},
														
 
															-    {{
														
 
															-      "id": 2,
														
 
															-      "content": "第二段内容", 
														
 
															-      "summary": "本段摘要",
														
 
															-      "keywords": ["关键词1", "关键词2", ...],
														
 
															-      "entities": ["实体1", "实体2", ...]
														
 
															-    }}
														
 
															-  ],
														
 
															-  "total_segments": 2
														
 
															-}}
														
 
															-
														
 
															-需要分段的文本：
														
 
															-"{text}"
														
 
															-"""
														
 
															-    return prompt
														
 
															-
														
 
															-
														
 
															-def text_segment(text: str):
														
 
															-    prompt = create_segmentation_prompt(text)
														
 
															-    res = chat_with_deepseek(prompt)
														
 
															-    return res
														
 
															-
														
 
															-def create_question_generation_prompt(text):
														
 
															+def generate_summary_prompt(query, search_results):
														
 
															     """
														
 
															-    创建生成文本内容问题的 prompt
														
 
															-
														
 
															-    参数:
														
 
															-        text (str): 需要生成问题的文本
														
 
															-        num_questions (int): 需要生成的问题数量
														
 
															+    生成总结的prompt。
														
 
															-    返回:
														
 
															-        str: 格式化后的 prompt
														
 
															+    :param query: 问题
														
 
															+    :param search_results: 搜索结果列表，每个元素包含 'content', 'contentSummary', 'score'
														
 
															+    :return: 生成的总结prompt
														
 
															     """
														
 
															-    prompt = f"""
														
 
															-请基于以下文本内容生成相关问题。要求：
														
 
															-
														
 
															-1. 问题应覆盖文本的主要内容和关键信息
														
 
															-2. 问题类型多样（事实性、理解性、分析性等）
														
 
															-3. 问题应清晰明确，易于理解
														
 
															-4. 问题不应过于简单或复杂，适合文本内容的理解深度
														
 
															-
														
 
															-请以严格的 JSON 数组格式返回结果，每个元素是一个问题对象，包含以下字段：
														
 
															-- id: 问题序号（从1开始）
														
 
															-- question: 问题文本
														
 
															-
														
 
															-请返回以下JSON格式：
														
 
															-{{
														
 
															-  "questions": ["问题1", "问题2", ...]
														
 
															-}}
														
 
															-
														
 
															-文本内容：
														
 
															-"{text}"
														
 
															-"""
														
 
															-    return prompt
														
 
															+    # 为了让AI更好地理解，我们将使用以下格式构建prompt:
														
 
															+    prompt = f"问题: {query}\n\n请结合以下搜索结果，生成一个总结：\n"
														
 
															-def text_question(text_to_question: str):
														
 
															-    prompt = create_question_generation_prompt(text_to_question)
														
 
															-    return chat_with_deepseek(prompt)
														
 
															+    # 先生成基于相似度加权的summary
														
 
															+    weighted_summaries = []
														
 
															+    weighted_contents = []
														
 
															+    for result in search_results:
														
 
															+        content = result['content']
														
 
															+        content_summary = result['contentSummary']
														
 
															+        score = result['score']
														
 
															-def create_keyword_summary_prompt(text, keyword):
														
 
															-    prompt = f"""
														
 
															-    
														
 
															-    请基于以下关于关键词"{keyword}"的多条知识，生成一段全面、准确且连贯的知识，不要输出与知识无关的内容，只返回关键词知识内容。
														
 
															+        # 加权内容摘要和内容
														
 
															+        weighted_summaries.append((content_summary, score))
														
 
															+        weighted_contents.append((content, score))
														
 
															-## 描述内容：
														
 
															-{text}
														
 
															+    # 为了生成更准确的总结，基于相似度加权内容和摘要
														
 
															+    weighted_summaries.sort(key=lambda x: x[1], reverse=True)  # 按相似度降序排列
														
 
															+    weighted_contents.sort(key=lambda x: x[1], reverse=True)  # 按相似度降序排列
														
 
															-## 知识要求：
														
 
															-1. 识别重叠与重复：找出不同文本中表述不同但含义相同的内容。
														
 
															-2. 解决矛盾与冲突：当不同文本的信息不一致时，需要辨别或调和。
														
 
															-3. 建立联系与结构：将分散的知识点连接起来，形成逻辑层次。
														
 
															-4. 提炼与升华：从合并后的信息中总结出更高层次的洞察和结论。
														
 
															+    # 将加权的摘要和内容加入到prompt中
														
 
															+    prompt += "\n-- 加权内容摘要 --\n"
														
 
															+    for summary, score in weighted_summaries:
														
 
															+        prompt += f"摘要: {summary} | 相似度: {score:.2f}\n"
														
 
															+    prompt += "\n-- 加权内容 --\n"
														
 
															+    for content, score in weighted_contents:
														
 
															+        prompt += f"内容: {content} | 相似度: {score:.2f}\n"
														
 
															-请返回以下JSON格式：
														
 
															-{{
														
 
															-  "keyword_summary": "关键词知识内容"
														
 
															-}}
														
 
															+    # 最后请求AI进行总结
														
 
															+    prompt += "\n基于上述内容，请帮我生成一个简洁的总结。"
														
 
															-"""
														
 
															     return prompt
														
 
															-
														
 
															-def get_keyword_summary(text, keyword):
														
 
															-    prompt = create_keyword_summary_prompt(text, keyword)
														
 
															-    return chat_with_deepseek(prompt)
														
 
															-
														
 
															-
														
 
															-def update_keyword_summary_prompt(text, keyword, new_content):
														
 
															-    prompt = f"""
														
 
															-
														
 
															-    请基于以下关于关键词"{keyword}"的相关知识，融合最新的知识到现有的知识中，不要输出与知识无关的内容，只返回关键词知识内容。
														
 
															-
														
 
															-## 知识要求：
														
 
															-1. 识别重叠与重复：找出不同文本中表述不同但含义相同的内容。
														
 
															-2. 解决矛盾与冲突：当不同文本的信息不一致时，需要辨别或调和。
														
 
															-3. 建立联系与结构：将分散的知识点连接起来，形成逻辑层次。
														
 
															-4. 提炼与升华：从合并后的信息中总结出更高层次的洞察和结论。
														
 
															-
														
 
															-## 现有知识：
														
 
															-{text}
														
 
															-
														
 
															-## 新知识：
														
 
															-{new_content}
														
 
															-
														
 
															-
														
 
															-请返回以下JSON格式：
														
 
															-{{
														
 
															-  "keyword_summary": "关键词知识内容"
														
 
															-}}
														
 
															-
														
 
															-"""
														
 
															-    return prompt
														
 
															-
														
 
															-
														
 
															-def update_keyword_summary(text, keyword, new_content):
														
 
															-    prompt = update_keyword_summary_prompt(text, keyword, new_content)
														
 
															-    return chat_with_deepseek(prompt)
														
 
															-
														
 
															-
														
 
															-def create_keyword_prompt(text):
														
 
															-    """
														
 
															-    创建生成关键词总结的 prompt
														
 
															-
														
 
															-    参数:
														
 
															-        text (str): 需要生成总结的文本
														
 
															-        keyword (int): 关键词
														
 
															-
														
 
															-    返回:
														
 
															-        str: 格式化后的 prompt
														
 
															-    """
														
 
															-    prompt = f"""
														
 
															-提取最能代表当前分析范围（整体或段落）核心内容的关键词或短语，如果本身就是一个词，直接返回这个词。避免使用过于通用和宽泛的词汇,
														
 
															-## 描述内容：
														
 
															-{text}
														
 
															-
														
 
															-请返回以下JSON格式：
														
 
															-{{
														
 
															-  "keywords": ["关键词1", "关键词2", ...]
														
 
															-}}
														
 
															-
														
 
															-"""
														
 
															-    return prompt
														
 
															-
														
 
															-
														
 
															-def get_keywords(text):
														
 
															-    prompt = create_keyword_prompt(text)
														
 
															+def generate_summary_query(query, search_results):
														
 
															+    prompt = generate_summary_prompt(query, search_results)
														
 
															     return chat_with_deepseek(prompt)
														
@@ -213,16 +78,17 @@ def chat_with_deepseek(prompt, model="deepseek-chat", max_tokens=8192, temperatu
 
															             messages=[{"role": "user", "content": prompt}],
														
 
															             max_tokens=max_tokens,
														
 
															             temperature=temperature,
														
 
															-            stream=False,
														
 
															-            response_format={"type": "json_object"}
														
 
															+            stream=False
														
 
															         )
														
 
															         # 返回回复内容
														
 
															-        return json.loads(response.choices[0].message.content)
														
 
															+        return response.choices[0].message.content
														
 
															     except Exception as e:
														
 
															         return f"发生异常: {str(e)}"
														
 
															 if __name__ == '__main__':
														
 
															-    print(get_keyword_summary('这样去发布你的视频，才能增加播放量！ #新人如何做抖音 #短视频创业 #自媒体创业 #抖音创业','播放量'))
														
 
															+    query = '帮我查询一些AI工具'
														
 
															+    search_results = query_data(query, [1,2])
														
 
															+    print(generate_summary_query(query, search_results))