há 5 meses atrás · 71af44a2f0
--- a/README.md
+++ b/README.md
@@ -7,7 +7,7 @@
 
															 ## 1.3 合并标注后的数据
														
 
															 - 将[标注完成的数据](https://w42nne6hzg.feishu.cn/wiki/BEMpwfvMriHrNakjwQncr3l6nUc?open_in_browser=true&sheet=rLAglD)下载到本地，并保存为csv格式<br>
														
 
															-- python src/preprocess/merge_label_data.py --files data/微信昵称\&头像\ -\ 1-昌辉-完成.csv,data/微信昵称\&头像\ -\ 2-张博-完成.csv,data/微信昵称\&头像\ -\ 3-jh-完成.csv,data/微信昵称\&头像\ -\ 4-ln-完成.csv,data/微信昵称\&头像\ -\ 5-wz-完成.csv,data/微信昵称\&头像\ -\ 6-dm-完成.csv --output data/user_info_label.csv
														
 
															+- python src/preprocess/merge_label_data.py --files data/微信昵称\&头像\ -\ 1-昌辉-完成.csv,data/微信昵称\&头像\ -\ 2-张博-完成.csv,data/微信昵称\&头像\ -\ 3-jh-完成.csv,data/微信昵称\&头像\ -\ 4-ln-完成.csv,data/微信昵称\&头像\ -\ 5-wz-完成.csv,data/微信昵称\&头像\ -\ 6-dm-完成.csv --output_file data/user_info_label.csv
														
 
															 ## 1.4 下载头像
														
 
															 - python src/preprocess/download_image.py --input_file data/user_info_label.csv --image_dir image
														
--- a/src/preprocess/download_image.py
+++ b/src/preprocess/download_image.py
@@ -46,4 +46,4 @@ if __name__ == '__main__':
 
															     print(args)
														
 
															     print('\n\n')
														
 
															-    process(args.input_file, args.output_dir, args.suffix)
														
 
															+    process(args.input_file, args.image_dir, args.suffix)
														
--- a/src/preprocess/format_user_info.py
+++ b/src/preprocess/format_user_info.py
@@ -27,7 +27,9 @@ def process(input_file, image_dir, output_file, suffix='jpeg'):
 
															         uid = row['uid']
														
 
															         nick_name = row['nick_name']
														
 
															         image_path = '%s/%s.%s' % (image_dir, uid, suffix)
														
 
															-        gender = row['gender']
														
 
															+        gender = ''
														
 
															+        if 'gender' in row.index:
														
 
															+            gender = row['gender']
														
 
															         avatar_url = row['avatar_url']
														
 
															         if not os.path.exists(image_path):
														
 
															             continue
														
--- a/src/preprocess/generate_qw2_5_lora_sft_json.py
+++ b/src/preprocess/generate_qw2_5_lora_sft_json.py
@@ -11,13 +11,13 @@ from tqdm import tqdm
 
															 image_tag = "<image>"
														
 
															 system = """
														
 
															-根据用户在社交平台上的姓名/昵称和头像，分析用户的性别倾向；
														
 
															+根据中老年用户在社交平台上的姓名/昵称和头像，分析其性别倾向；
														
 
															 先基于姓名/昵称分析，再基于头像分析；
														
 
															 当头像不可用时，仅基于姓名/昵称分析；
														
 
															 直接返回[男性|女性|未知]，不要返回多余的信息。
														
 
															 """
														
 
															 system = system.replace("\n", "")
														
 
															-prompt = "姓名/昵称：%s，头像：%s"
														
 
															+prompt = "姓名/昵称：%s, 头像：%s"
														
 
															 # LLaMA-Factory 训练模版
														
@@ -54,10 +54,10 @@ def get_conversation(row):
 
															     }
														
 
															-def process(input_file, output_file):
														
 
															+def process(input_file, output_file, random_state):
														
 
															     conversation_list = []
														
 
															     df = pd.read_csv(input_file)
														
 
															-    df = shuffle(df)
														
 
															+    df = shuffle(df, random_state=random_state)
														
 
															     for index, row in tqdm(df.iterrows(), total=len(df)):
														
 
															         conversation_list.append(get_conversation(row))
														
 
															     if conversation_list:
														
@@ -69,10 +69,11 @@ if __name__ == '__main__':
 
															     parser = argparse.ArgumentParser()
														
 
															     parser.add_argument('--input_file', required=True, help='input files')
														
 
															     parser.add_argument('--output_file', required=True, help='output file')
														
 
															+    parser.add_argument('--random_state', default=42, type=int, help='random state')
														
 
															     args = parser.parse_args()
														
 
															     print('\n\n')
														
 
															     print(args)
														
 
															     print('\n\n')
														
 
															     #
														
 
															-    process(args.input_file, args.output_file)
														
 
															+    process(args.input_file, args.output_file, args.random_state)
														
--- a/src/preprocess/merge_label_data.py
+++ b/src/preprocess/merge_label_data.py
@@ -46,4 +46,4 @@ if __name__ == '__main__':
 
															     print(args)
														
 
															     print('\n\n')
														
 
															-    process(args.files, args.output)
														
 
															+    process(args.files, args.output_file)