2 月之前 · 5a0a8e4546
--- a/.env
+++ b/.env
@@ -11,7 +11,15 @@ COZE_API_KEY=pat_pClXS15hyuqohC9TK58vU7130Hp6QmmHlnyW2TjFpKVWKsW2B1VniFwdXkY3eRN
 
															 COZE_BOT_ID=7537570163895812146
														
 
															 # Gemini
														
 
															-GEMINI_API_KEY=AIzaSyAkt1l9Kw1CQgHFzTpla0vgt0OE53fr-BI
														
 
															+GEMINI_API_KEY_1=AIzaSyAkt1l9Kw1CQgHFzTpla0vgt0OE53fr-BI
														
 
															+GEMINI_API_KEY_2=AIzaSyAkt1l9Kw1CQgHFzTpla0vgt0OE53fr-BI
														
 
															+GEMINI_API_KEY_3=AIzaSyCl_xx7oJiA-lIIq56l_Fvxg-XE3c9M4gg
														
 
															+GEMINI_API_KEY_4=AIzaSyAgNBEBTbOymx8625KrmVSli0-V6Bumf_0
														
 
															+GEMINI_API_KEY_5=AIzaSyAJ1-83oNw9zKlazyijsATrJDRQYgu7yBU
														
 
															+GEMINI_API_KEY_6=AIzaSyBPjb7sVZXUT7rFp8Awxnx5L-_xfxTchgw
														
 
															+GEMINI_API_KEY_7=AIzaSyBLlzG_XRVm-830eb4rvI3GZ-IST1q6JUI
														
 
															+
														
 
															+
														
 
															 # DeepSeek 阿里云
														
 
															 DEEPSEEK_API_KEY=sk-35504b23097f4662899638869c2a63b3
														
--- a/agent.py
+++ b/agent.py
@@ -370,8 +370,12 @@ RUNNING_LOCK = asyncio.Lock()
 
															 def process_single_item(args):
														
 
															     """处理单个数据项的函数，用于多进程 (模块级，便于pickle)"""
														
 
															-    idx, item, request_id = args
														
 
															+    idx, item, request_id, api_key = args
														
 
															     try:
														
 
															+        # 临时设置环境变量以使用指定的API密钥
														
 
															+        original_api_key = os.getenv('GEMINI_API_KEY')
														
 
															+        os.environ['GEMINI_API_KEY'] = api_key
														
 
															+        
														
 
															         crawl_data = item.get('crawl_data') or {}
														
 
															         content_id = item.get('content_id') or ''
														
 
															         task_id = item.get('task_id') or ''
														
@@ -461,6 +465,13 @@ def process_single_item(args):
 
															             "status": 3,
														
 
															             "success": False
														
 
															         }
														
 
															+    finally:
														
 
															+        # 恢复原始API密钥
														
 
															+        if 'original_api_key' in locals():
														
 
															+            if original_api_key is not None:
														
 
															+                os.environ['GEMINI_API_KEY'] = original_api_key
														
 
															+            else:
														
 
															+                os.environ.pop('GEMINI_API_KEY', None)
														
 
															 def create_langgraph_workflow():
														
@@ -503,10 +514,24 @@ def create_langgraph_workflow():
 
															                 state["status"] = "completed"
														
 
															                 return state
														
 
															-            # 准备多进程参数
														
 
															-            process_args = [(idx, item, state["request_id"]) for idx, item in enumerate(items, start=1)]
														
 
															+            # 获取7个不同的GEMINI API密钥
														
 
															+            api_keys = []
														
 
															+            for i in range(1, 8):  # GEMINI_API_KEY_1 到 GEMINI_API_KEY_7
														
 
															+                api_key = os.getenv(f'GEMINI_API_KEY_{i}')
														
 
															+                if api_key:
														
 
															+                    api_keys.append(api_key)
														
 
															+                else:
														
 
															+                    logger.warning(f"未找到 GEMINI_API_KEY_{i}，使用默认 GEMINI_API_KEY")
														
 
															+                    api_keys.append(os.getenv('GEMINI_API_KEY'))
														
 
															+            
														
 
															+            # 准备多进程参数，为每个任务分配API密钥
														
 
															+            process_args = []
														
 
															+            for idx, item in enumerate(items, start=1):
														
 
															+                # 循环使用7个API密钥
														
 
															+                api_key = api_keys[(idx - 1) % 7]
														
 
															+                process_args.append((idx, item, state["request_id"], api_key))
														
 
															-            # 使用3个进程并行处理，添加多进程保护
														
 
															+            # 使用7个进程并行处理，添加多进程保护
														
 
															             if __name__ == '__main__' or multiprocessing.current_process().name == 'MainProcess':
														
 
															                 # 设置多进程启动方法为 'spawn' 以避免 gRPC fork 问题
														
 
															                 original_start_method = multiprocessing.get_start_method()
														
@@ -515,8 +540,8 @@ def create_langgraph_workflow():
 
															                 except RuntimeError:
														
 
															                     pass  # 如果已经设置过，忽略错误
														
 
															-                with multiprocessing.Pool(processes=2) as pool:
														
 
															-                    logger.info(f"开始多进程处理: 数量={len(process_args)}")
														
 
															+                with multiprocessing.Pool(processes=7) as pool:
														
 
															+                    logger.info(f"开始多进程处理: 数量={len(process_args)}, 使用7个进程")
														
 
															                     results = pool.map(process_single_item, process_args)
														
 
															                 # 恢复原始启动方法
														
--- a/tools/indentify/indentify.py
+++ b/tools/indentify/indentify.py
@@ -38,9 +38,9 @@ class ContentIdentifier:
 
															         # 初始化数据库连接
														
 
															         self.db = MysqlHelper()
														
 
															-        # 初始化识别模块
														
 
															-        self.image_identifier = ImageIdentifier()
														
 
															-        self.video_identifier = VideoIdentifier()
														
 
															+        # 延迟初始化识别模块，确保在需要时使用正确的环境变量
														
 
															+        self.image_identifier = None
														
 
															+        self.video_identifier = None
														
 
															     def get_unprocessed_record(self) -> Optional[Dict[str, Any]]:
														
@@ -117,6 +117,12 @@ class ContentIdentifier:
 
															         """处理内容识别，调用独立的识别模块"""
														
 
															         self.logger.info("开始内容识别处理...")
														
 
															+        # 延迟初始化识别模块，确保使用正确的环境变量
														
 
															+        if self.image_identifier is None:
														
 
															+            self.image_identifier = ImageIdentifier()
														
 
															+        if self.video_identifier is None:
														
 
															+            self.video_identifier = VideoIdentifier()
														
 
															+        
														
 
															         # 图片识别
														
 
															         image_result = self.image_identifier.process_images(formatted_content)
														
--- a/tools/indentify/video_identifier.py
+++ b/tools/indentify/video_identifier.py
@@ -16,7 +16,6 @@ import uuid
 
															 import requests
														
 
															 from typing import Dict, Any, List, Optional
														
 
															 from dotenv import load_dotenv
														
 
															-from concurrent.futures import ThreadPoolExecutor, as_completed
														
 
															 # 导入自定义模块
														
 
															 sys.path.append(os.path.dirname(os.path.dirname(os.path.dirname(os.path.abspath(__file__)))))
														
@@ -511,15 +510,10 @@ class VideoIdentifier:
 
															                         except Exception:
														
 
															                             pass
														
 
															-            # 并发处理所有视频（每个线程完成完整流程）
														
 
															-            with ThreadPoolExecutor(max_workers=5) as pool:
														
 
															-                future_to_item = {pool.submit(complete_video_job, item): item for item in video_data}
														
 
															-                
														
 
															-                for future in as_completed(list(future_to_item.keys())):
														
 
															-                    result = future.result()
														
 
															-                    url = result['url']
														
 
															-                    idx = url_to_index[url]
														
 
															-                    results[idx] = result
														
 
															+            # 单独遍历处理所有视频
														
 
															+            for i, item in enumerate(video_data):
														
 
															+                result = complete_video_job(item)
														
 
															+                results[i] = result
														
 
															             return results
														
@@ -542,10 +536,10 @@ def main():
 
															                 "video_url": "http://rescdn.yishihui.com/pipeline/video/489e7c31-4e7c-44cc-872d-b1b1dd42b12d.mp4",
														
 
															                 "video_duration": 187
														
 
															             },
														
 
															-            # {
														
 
															-            #     "video_url": "http://temp.yishihui.com/pipeline/video/43d11b20-6273-4ece-a146-94f63a3992a8.mp4",
														
 
															-            #     "video_duration": 100
														
 
															-            # },
														
 
															+            {
														
 
															+                "video_url": "http://temp.yishihui.com/pipeline/video/43d11b20-6273-4ece-a146-94f63a3992a8.mp4",
														
 
															+                "video_duration": 100
														
 
															+            },
														
 
															             # {
														
 
															             #     "video_url": "http://temp.yishihui.com/longvideo/transcode/video/vpc/20250731/57463792ND5eu5PAj95sVLi2gB.mp4",
														
 
															             #     "video_duration": 100