7 months ago · 7ccf080886
--- a/recommend-model-produce/src/main/python/tools/static_ps_infer_v2.py
+++ b/recommend-model-produce/src/main/python/tools/static_ps_infer_v2.py
@@ -46,6 +46,58 @@ logging.basicConfig(
 
															 logger = logging.getLogger(__name__)
														
 
															+import json
														
 
															+
														
 
															+# 创建推理结果处理器类
														
 
															+class InferenceFetchHandler(object):
														
 
															+    def __init__(self, output_file, batch_size=1000):
														
 
															+        self.output_file = output_file
														
 
															+        self.batch_size = batch_size
														
 
															+        self.current_batch = []
														
 
															+        self.total_samples = 0
														
 
															+        
														
 
															+        # 创建输出目录（如果不存在）
														
 
															+        output_dir = os.path.dirname(output_file)
														
 
															+        if not os.path.exists(output_dir):
														
 
															+            os.makedirs(output_dir)
														
 
															+        
														
 
															+        # 创建或清空输出文件
														
 
															+        with open(self.output_file, 'w') as f:
														
 
															+            f.write('')
														
 
															+    
														
 
															+    def handler(self, fetch_vars):
														
 
															+        """处理每批次的推理结果"""
														
 
															+        result_dict = {}
														
 
															+        for var_name, var_value in fetch_vars.items():
														
 
															+            # 转换数据类型
														
 
															+            if isinstance(var_value, np.ndarray):
														
 
															+                result = var_value.tolist()
														
 
															+            else:
														
 
															+                result = var_value
														
 
															+            result_dict[var_name] = result
														
 
															+        
														
 
															+        self.current_batch.append(result_dict)
														
 
															+        self.total_samples += len(result_dict.get(list(result_dict.keys())[0], []))
														
 
															+        
														
 
															+        # 当累积足够的结果时，写入文件
														
 
															+        if len(self.current_batch) >= self.batch_size:
														
 
															+            self._write_batch()
														
 
															+            logger.info(f"Saved {self.total_samples} samples to {self.output_file}")
														
 
															+    
														
 
															+    def _write_batch(self):
														
 
															+        """将批次结果写入文件"""
														
 
															+        with open(self.output_file, 'a') as f:
														
 
															+            for result in self.current_batch:
														
 
															+                f.write(json.dumps(result) + '\n')
														
 
															+        self.current_batch = []
														
 
															+    
														
 
															+    def finish(self):
														
 
															+        """确保所有剩余结果都被保存"""
														
 
															+        if self.current_batch:
														
 
															+            self._write_batch()
														
 
															+            logger.info(f"Final save: total {self.total_samples} samples saved to {self.output_file}")
														
 
															+
														
 
															+
														
 
															 def parse_args():
														
 
															     parser = argparse.ArgumentParser("PaddleRec train script")
														
 
															     parser.add_argument("-o", "--opt", nargs='*', type=str)
														
@@ -186,44 +238,21 @@ class Main(object):
 
															         if reader_type == "InmemoryDataset":
														
 
															             self.reader.load_into_memory()
														
 
															-        for epoch in range(epochs):
														
 
															-            fleet.load_inference_model(
														
 
															-                init_model_path,
														
 
															-                mode=int(model_mode))
														
 
															-            epoch_start_time = time.time()
														
 
															-
														
 
															-            if sync_mode == "heter":
														
 
															-                self.heter_train_loop(epoch)
														
 
															-            elif reader_type == "QueueDataset":
														
 
															-                self.dataset_train_loop(epoch)
														
 
															-            elif reader_type == "InmemoryDataset":
														
 
															-                self.dataset_train_loop(epoch)
														
 
															-
														
 
															-            epoch_time = time.time() - epoch_start_time
														
 
															-
														
 
															-            if use_auc is True:
														
 
															-                global_auc = get_global_auc(paddle.static.global_scope(),
														
 
															-                                            self.model.stat_pos.name,
														
 
															-                                            self.model.stat_neg.name)
														
 
															-                self.train_result_dict["auc"].append(global_auc)
														
 
															-                set_zero(self.model.stat_pos.name,
														
 
															-                         paddle.static.global_scope())
														
 
															-                set_zero(self.model.stat_neg.name,
														
 
															-                         paddle.static.global_scope())
														
 
															-                set_zero(self.model.batch_stat_pos.name,
														
 
															-                         paddle.static.global_scope())
														
 
															-                set_zero(self.model.batch_stat_neg.name,
														
 
															-                         paddle.static.global_scope())
														
 
															-                logger.info(
														
 
															-                    "Epoch: {}, using time: {} second, ips: {}/sec. auc: {}".
														
 
															-                    format(epoch, epoch_time, self.count_method,
														
 
															-                           global_auc))
														
 
															-            else:
														
 
															-                logger.info(
														
 
															-                    "Epoch: {}, using time {} second, ips  {}/sec.".format(
														
 
															-                        epoch, epoch_time, self.count_method))
														
 
															+        fleet.load_inference_model(
														
 
															+            init_model_path,
														
 
															+            mode=int(model_mode))
														
 
															+        epoch_start_time = time.time()
														
 
															+
														
 
															+        if sync_mode == "heter":
														
 
															+            self.heter_train_loop(epoch)
														
 
															+        elif reader_type == "QueueDataset":
														
 
															+            self.dataset_train_loop(epoch)
														
 
															+        elif reader_type == "InmemoryDataset":
														
 
															+            self.dataset_train_loop(epoch)
														
 
															-            model_dir = "{}/{}".format(save_model_path, epoch)
														
 
															+        epoch_time = time.time() - epoch_start_time
														
 
															+        logger.info(
														
 
															+            "using time {} second, ips  {}/sec.".format(epoch_time, self.count_method))
														
 
															         if reader_type == "InmemoryDataset":
														
 
															             self.reader.release_memory()
														
@@ -259,6 +288,13 @@ class Main(object):
 
															                 "dump_fields_path": dump_fields_path,
														
 
															                 "dump_fields": config.get("runner.dump_fields")
														
 
															             })
														
 
															+            
														
 
															+        # 设置输出文件路径
														
 
															+        output_dir = config.get("runner.inference_output_dir", "inference_results")
														
 
															+        output_file = os.path.join(output_dir, f"epoch_{epoch}_results.jsonl")
														
 
															+        
														
 
															+        # 创建处理器实例
														
 
															+        fetch_handler = InferenceFetchHandler(output_file)
														
 
															         print(paddle.static.default_main_program()._fleet_opt)
														
 
															         results = self.exe.infer_from_dataset(
														
 
															             program=paddle.static.default_main_program(),
														
@@ -266,8 +302,10 @@ class Main(object):
 
															             fetch_list=fetch_vars,
														
 
															             fetch_info=fetch_info,
														
 
															             print_period=print_step,
														
 
															-            debug=debug)
														
 
															+            debug=debug,
														
 
															+            fetch_handler=fetch_handler)
														
 
															         print("results {}".format(results))
														
 
															+        fetch_handler.finish()
														
 
															     def heter_train_loop(self, epoch):