3 هفته پیش · 667dea3b45
--- a/applications/async_task/__init__.py
+++ b/applications/async_task/__init__.py
@@ -1,4 +1,4 @@
 
				-from .chunk_task import ChunkTask
			
 
				+from .chunk_task import ChunkEmbeddingTask
			
 
				 
			
 
				 
			
 
				-__all__ = ['ChunkTask']
			
 
				+__all__ = ["ChunkEmbeddingTask"]
			
--- a/applications/async_task/chunk_task.py
+++ b/applications/async_task/chunk_task.py
@@ -2,12 +2,15 @@ import asyncio
 
				 import uuid
			
 
				 from typing import List
			
 
				 
			
 
				+from applications.api import get_basic_embedding
			
 
				+from applications.utils.async_utils import run_tasks_with_asyncio_task_group
			
 
				 from applications.utils.mysql import ContentChunks, Contents
			
 
				 from applications.utils.chunks import TopicAwareChunker, LLMClassifier
			
 
				-from applications.config import DEFAULT_MODEL, Chunk, ChunkerConfig
			
 
				+from applications.utils.milvus import async_insert_chunk
			
 
				+from applications.config import Chunk, ChunkerConfig, DEFAULT_MODEL
			
 
				 
			
 
				 
			
 
				-class ChunkTask(TopicAwareChunker):
			
 
				+class ChunkEmbeddingTask(TopicAwareChunker):
			
 
				     def __init__(self, mysql_pool, vector_pool, cfg: ChunkerConfig):
			
 
				         super().__init__(cfg)
			
 
				         self.content_chunk_processor = None
			
@@ -16,6 +19,10 @@ class ChunkTask(TopicAwareChunker):
 
				         self.vector_pool = vector_pool
			
 
				         self.classifier = LLMClassifier()
			
 
				 
			
 
				+    @staticmethod
			
 
				+    async def get_embedding_list(text: str) -> List:
			
 
				+        return await get_basic_embedding(text=text, model=DEFAULT_MODEL, dev=True)
			
 
				+
			
 
				     def init_processer(self):
			
 
				         self.contents_processor = Contents(self.mysql_pool)
			
 
				         self.content_chunk_processor = ContentChunks(self.mysql_pool)
			
@@ -28,14 +35,17 @@ class ChunkTask(TopicAwareChunker):
 
				             raw_chunks = await self.chunk(text)
			
 
				             if not raw_chunks:
			
 
				                 await self.contents_processor.update_content_status(
			
 
				-                    doc_id=doc_id, ori_status=self.INIT_STATUS, new_status=self.FAILED_STATUS
			
 
				+                    doc_id=doc_id,
			
 
				+                    ori_status=self.INIT_STATUS,
			
 
				+                    new_status=self.FAILED_STATUS,
			
 
				                 )
			
 
				                 return []
			
 
				 
			
 
				             affected_rows = await self.contents_processor.update_content_status(
			
 
				-                doc_id=doc_id, ori_status=self.INIT_STATUS, new_status=self.PROCESSING_STATUS
			
 
				+                doc_id=doc_id,
			
 
				+                ori_status=self.INIT_STATUS,
			
 
				+                new_status=self.PROCESSING_STATUS,
			
 
				             )
			
 
				-            print(affected_rows)
			
 
				             return raw_chunks
			
 
				 
			
 
				     async def process_each_chunk(self, chunk: Chunk):
			
@@ -45,7 +55,10 @@ class ChunkTask(TopicAwareChunker):
 
				             return
			
 
				 
			
 
				         acquire_lock = await self.content_chunk_processor.update_chunk_status(
			
 
				-            doc_id=chunk.doc_id, chunk_id=chunk.chunk_id, ori_status=self.INIT_STATUS, new_status=self.PROCESSING_STATUS
			
 
				+            doc_id=chunk.doc_id,
			
 
				+            chunk_id=chunk.chunk_id,
			
 
				+            ori_status=self.INIT_STATUS,
			
 
				+            new_status=self.PROCESSING_STATUS,
			
 
				         )
			
 
				         if not acquire_lock:
			
 
				             return
			
@@ -53,17 +66,78 @@ class ChunkTask(TopicAwareChunker):
 
				         completion = await self.classifier.classify_chunk(chunk)
			
 
				         if not completion:
			
 
				             await self.content_chunk_processor.update_chunk_status(
			
 
				-                doc_id=chunk.doc_id, chunk_id=chunk.chunk_id, ori_status=self.PROCESSING_STATUS, new_status=self.FAILED_STATUS
			
 
				+                doc_id=chunk.doc_id,
			
 
				+                chunk_id=chunk.chunk_id,
			
 
				+                ori_status=self.PROCESSING_STATUS,
			
 
				+                new_status=self.FAILED_STATUS,
			
 
				             )
			
 
				+            return
			
 
				 
			
 
				         update_flag = await self.content_chunk_processor.set_chunk_result(
			
 
				-            chunk=completion, new_status=self.FINISHED_STATUS, ori_status=self.PROCESSING_STATUS
			
 
				+            chunk=completion,
			
 
				+            ori_status=self.PROCESSING_STATUS,
			
 
				+            new_status=self.FINISHED_STATUS,
			
 
				         )
			
 
				         if not update_flag:
			
 
				             await self.content_chunk_processor.update_chunk_status(
			
 
				-                doc_id=chunk.doc_id, chunk_id=chunk.chunk_id, ori_status=self.PROCESSING_STATUS, new_status=self.FAILED_STATUS
			
 
				+                doc_id=chunk.doc_id,
			
 
				+                chunk_id=chunk.chunk_id,
			
 
				+                ori_status=self.PROCESSING_STATUS,
			
 
				+                new_status=self.FAILED_STATUS,
			
 
				             )
			
 
				+            return
			
 
				 
			
 
				+        await self.save_to_milvus(completion)
			
 
				+
			
 
				+    async def save_to_milvus(self, chunk: Chunk):
			
 
				+        """
			
 
				+        :param chunk: each single chunk
			
 
				+        :return:
			
 
				+        """
			
 
				+        # 抢锁
			
 
				+        acquire_lock = await self.content_chunk_processor.update_embedding_status(
			
 
				+            doc_id=chunk.doc_id,
			
 
				+            chunk_id=chunk.chunk_id,
			
 
				+            new_status=self.PROCESSING_STATUS,
			
 
				+            ori_status=self.INIT_STATUS,
			
 
				+        )
			
 
				+        if not acquire_lock:
			
 
				+            print(f"抢占-{chunk.doc_id}-{chunk.chunk_id}分块-embedding处理锁失败")
			
 
				+            return
			
 
				+        try:
			
 
				+            data = {
			
 
				+                "doc_id": chunk.doc_id,
			
 
				+                "chunk_id": chunk.chunk_id,
			
 
				+                "vector_text": await self.get_embedding_list(chunk.text),
			
 
				+                "vector_summary": await self.get_embedding_list(chunk.summary),
			
 
				+                "vector_questions": await self.get_embedding_list(
			
 
				+                    ",".join(chunk.questions)
			
 
				+                ),
			
 
				+                "topic": chunk.topic,
			
 
				+                "domain": chunk.domain,
			
 
				+                "task_type": chunk.task_type,
			
 
				+                "summary": chunk.summary,
			
 
				+                "keywords": chunk.keywords,
			
 
				+                "concepts": chunk.concepts,
			
 
				+                "questions": chunk.questions,
			
 
				+                "topic_purity": chunk.topic_purity,
			
 
				+                "tokens": chunk.tokens,
			
 
				+            }
			
 
				+            await async_insert_chunk(self.vector_pool, data)
			
 
				+            await self.content_chunk_processor.update_embedding_status(
			
 
				+                doc_id=chunk.doc_id,
			
 
				+                chunk_id=chunk.chunk_id,
			
 
				+                ori_status=self.PROCESSING_STATUS,
			
 
				+                new_status=self.FINISHED_STATUS,
			
 
				+            )
			
 
				+        except Exception as e:
			
 
				+            await self.content_chunk_processor.update_embedding_status(
			
 
				+                doc_id=chunk.doc_id,
			
 
				+                chunk_id=chunk.chunk_id,
			
 
				+                ori_status=self.PROCESSING_STATUS,
			
 
				+                new_status=self.FAILED_STATUS,
			
 
				+            )
			
 
				+            print(f"存入向量数据库失败", e)
			
 
				 
			
 
				     async def deal(self, data):
			
 
				         text = data.get("text")
			
@@ -78,20 +152,19 @@ class ChunkTask(TopicAwareChunker):
 
				             if not chunks:
			
 
				                 return
			
 
				 
			
 
				-            # 开始分batch
			
 
				-            async with asyncio.TaskGroup() as tg:
			
 
				-                for chunk in chunks:
			
 
				-                    tg.create_task(self.process_each_chunk(chunk))
			
 
				+            await run_tasks_with_asyncio_task_group(
			
 
				+                task_list=chunks,
			
 
				+                handler=self.process_each_chunk,
			
 
				+                description="处理单篇文章分块",
			
 
				+                unit="chunk",
			
 
				+                max_concurrency=10,
			
 
				+            )
			
 
				 
			
 
				             await self.contents_processor.update_content_status(
			
 
				-                doc_id=doc_id, ori_status=self.PROCESSING_STATUS, new_status=self.FINISHED_STATUS
			
 
				+                doc_id=doc_id,
			
 
				+                ori_status=self.PROCESSING_STATUS,
			
 
				+                new_status=self.FINISHED_STATUS,
			
 
				             )
			
 
				 
			
 
				-        await _process()
			
 
				-        # asyncio.create_task(_process())
			
 
				+        asyncio.create_task(_process())
			
 
				         return doc_id
			
 
				-
			
 
				-
			
 
				-
			
 
				-
			
 
				-
			
--- a/applications/utils/async_utils/__init__.py
+++ b/applications/utils/async_utils/__init__.py
@@ -0,0 +1,3 @@
 
				+from .group_task import run_tasks_with_asyncio_task_group
			
 
				+
			
 
				+__all__ = ["run_tasks_with_asyncio_task_group"]
			
--- a/applications/utils/async_utils/group_task.py
+++ b/applications/utils/async_utils/group_task.py
@@ -0,0 +1,51 @@
 
				+import asyncio
			
 
				+from typing import Callable, Coroutine, List, Any, Dict
			
 
				+
			
 
				+from tqdm.asyncio import tqdm
			
 
				+
			
 
				+
			
 
				+# 使用asyncio.TaskGroup 来高效处理I/O密集型任务
			
 
				+async def run_tasks_with_asyncio_task_group(
			
 
				+    task_list: List[Any],
			
 
				+    handler: Callable[[Any], Coroutine[Any, Any, None]],
			
 
				+    *,
			
 
				+    description: str = None,  # 任务介绍
			
 
				+    unit: str,
			
 
				+    max_concurrency: int = 20,  # 最大并发数
			
 
				+    fail_fast: bool = False,  # 是否遇到错误就退出整个tasks
			
 
				+) -> Dict[str, Any]:
			
 
				+    """using asyncio.TaskGroup to process I/O-intensive tasks"""
			
 
				+    if not task_list:
			
 
				+        return {"total_task": 0, "processed_task": 0, "errors": []}
			
 
				+
			
 
				+    processed_task = 0
			
 
				+    total_task = len(task_list)
			
 
				+    errors: List[tuple[int, Any, Exception]] = []
			
 
				+    semaphore = asyncio.Semaphore(max_concurrency)
			
 
				+    processing_bar = tqdm(total=total_task, unit=unit, desc=description)
			
 
				+
			
 
				+    async def _run_single_task(task_obj: Any, idx: int):
			
 
				+        nonlocal processed_task
			
 
				+        async with semaphore:
			
 
				+            try:
			
 
				+                await handler(task_obj)
			
 
				+                processed_task += 1
			
 
				+            except Exception as e:
			
 
				+                if fail_fast:
			
 
				+                    raise e
			
 
				+                errors.append((idx, task_obj, e))
			
 
				+            finally:
			
 
				+                processing_bar.update()
			
 
				+
			
 
				+    async with asyncio.TaskGroup() as task_group:
			
 
				+        for index, task in enumerate(task_list, start=1):
			
 
				+            task_group.create_task(
			
 
				+                _run_single_task(task, index), name=f"processing {description}-{index}"
			
 
				+            )
			
 
				+
			
 
				+    processing_bar.close()
			
 
				+    return {
			
 
				+        "total_task": total_task,
			
 
				+        "processed_task": processed_task,
			
 
				+        "errors": errors,
			
 
				+    }
			
--- a/applications/utils/milvus/field.py
+++ b/applications/utils/milvus/field.py
@@ -7,7 +7,7 @@ fields = [
 
				         dtype=DataType.INT64,
			
 
				         is_primary=True,
			
 
				         auto_id=True,
			
 
				-        description="自增逐渐id",
			
 
				+        description="自增id",
			
 
				     ),
			
 
				     FieldSchema(
			
 
				         name="doc_id", dtype=DataType.VARCHAR, max_length=64, description="文档id"
			
--- a/applications/utils/mysql/mapper.py
+++ b/applications/utils/mysql/mapper.py
@@ -72,7 +72,7 @@ class ContentChunks(BaseMySQLClient):
 
				             WHERE doc_id = %s AND chunk_id = %s AND embedding_status = %s;
			
 
				         """
			
 
				         return await self.pool.async_save(
			
 
				-            query=query, params=(new_status, doc_id, chunk_id,  ori_status)
			
 
				+            query=query, params=(new_status, doc_id, chunk_id, ori_status)
			
 
				         )
			
 
				 
			
 
				     async def set_chunk_result(self, chunk: Chunk, ori_status, new_status):
			
@@ -84,8 +84,16 @@ class ContentChunks(BaseMySQLClient):
 
				         return await self.pool.async_save(
			
 
				             query=query,
			
 
				             params=(
			
 
				-                chunk.summary, chunk.topic, chunk.domain, chunk.task_type,
			
 
				-                json.dumps(chunk.concepts), json.dumps(chunk.keywords), json.dumps(chunk.questions), new_status,
			
 
				-                chunk.doc_id, chunk.chunk_id, ori_status
			
 
				-            )
			
 
				+                chunk.summary,
			
 
				+                chunk.topic,
			
 
				+                chunk.domain,
			
 
				+                chunk.task_type,
			
 
				+                json.dumps(chunk.concepts),
			
 
				+                json.dumps(chunk.keywords),
			
 
				+                json.dumps(chunk.questions),
			
 
				+                new_status,
			
 
				+                chunk.doc_id,
			
 
				+                chunk.chunk_id,
			
 
				+                ori_status,
			
 
				+            ),
			
 
				         )
			
--- a/routes/buleprint.py
+++ b/routes/buleprint.py
@@ -2,7 +2,7 @@ from quart import Blueprint, jsonify, request
 
				 
			
 
				 from applications.config import DEFAULT_MODEL, LOCAL_MODEL_CONFIG, ChunkerConfig
			
 
				 from applications.api import get_basic_embedding
			
 
				-from applications.async_task import ChunkTask
			
 
				+from applications.async_task import ChunkEmbeddingTask
			
 
				 
			
 
				 server_bp = Blueprint("api", __name__, url_prefix="/api")
			
 
				 
			
@@ -27,7 +27,7 @@ def server_routes(mysql_db, vector_db):
 
				         if not text:
			
 
				             return jsonify({"error": "error  text"})
			
 
				 
			
 
				-        chunk_task = ChunkTask(mysql_db, vector_db, cfg=ChunkerConfig())
			
 
				+        chunk_task = ChunkEmbeddingTask(mysql_db, vector_db, cfg=ChunkerConfig())
			
 
				         doc_id = await chunk_task.deal(body)
			
 
				         return jsonify({"doc_id": doc_id})