jch 1 周之前
父节点
当前提交
2261041a54
共有 1 个文件被更改,包括 0 次插入19 次删除
  1. 0 19
      readme.txt

+ 0 - 19
readme.txt

@@ -1,19 +0,0 @@
-1.finetune性别大模型(昵称&头像)
-    a.下载随机数据
-        python src/preprocess/download_user_info.py --num 4000 --output_file data/user_info.csv
-
-    b.标注数据
-        根据昵称(nick_name)和头像(avatar_url), 标注data/user_info.csv的gender[男性|女性|未知]
-
-    c.合并标注后的数据
-        将标注完成的数据(https://w42nne6hzg.feishu.cn/wiki/BEMpwfvMriHrNakjwQncr3l6nUc?open_in_browser=true&sheet=rLAglD)下载到本地(csv)
-        python src/preprocess/merge_label_data.py --files data/微信昵称\&头像\ -\ 1-昌辉-完成.csv,data/微信昵称\&头像\ -\ 2-张博-完成.csv,data/微信昵称\&头像\ -\ 3-jh-完成.csv,data/微信昵称\&头像\ -\ 4-ln-完成.csv,data/微信昵称\&头像\ -\ 5-wz-完成.csv,data/微信昵称\&头像\ -\ 6-dm-完成.csv --output data/user_info_label.csv
-
-    d.下载头像
-        python src/preprocess/download_image.py --input_file data/user_info_label.csv --output_dir image
-
-    e.格式化数据
-        python src/preprocess/format_user_info.py --input_file data/user_info_label.csv --image_dir image --output_file data/user_info_format.csv
-
-    f.生成样本数据
-        python src/preprocess/generate_qw2_5_lora_sft_data.py --input_file data/user_info_format.csv --train_file data/train_sft.csv --test_file data/test_sft.csv --test_rate 0.5