# 1. finetune性别大模型(昵称&头像) ## 1.1 下载随机数据 - python src/preprocess/download_user_info.py --num 4000 --output_file data/user_info.csv ## 1.2 标注数据 - 根据昵称(nick_name)和头像(avatar_url), 标注data/user_info.csv的gender[男性|女性|未知] ## 1.3 合并标注后的数据 - 将[标注完成的数据](https://w42nne6hzg.feishu.cn/wiki/BEMpwfvMriHrNakjwQncr3l6nUc?open_in_browser=true&sheet=rLAglD)下载到本地,并保存为csv格式
- python src/preprocess/merge_label_data.py --files data/微信昵称\&头像\ -\ 1-昌辉-完成.csv,data/微信昵称\&头像\ -\ 2-张博-完成.csv,data/微信昵称\&头像\ -\ 3-jh-完成.csv,data/微信昵称\&头像\ -\ 4-ln-完成.csv,data/微信昵称\&头像\ -\ 5-wz-完成.csv,data/微信昵称\&头像\ -\ 6-dm-完成.csv --output data/user_info_label.csv ## 1.4 下载头像 - python src/preprocess/download_image.py --input_file data/user_info_label.csv --image_dir image ## 1.5 数据格式化 - python src/preprocess/format_user_info.py --input_file data/user_info_label.csv --image_dir image --output_file data/user_info_format.csv ## 1.6 拆分训练和测试数据 - python src/preprocess/split_train_test.py --input_file data/user_info_format.csv --train_file data/user_info_format_train.csv --test_file data/user_info_format_test.csv ## 1.7 生成训练数据 - python src/preprocess/generate_qw2_5_lora_sft_json.py --input_file data/user_info_format_train.csv --output_file data/train_sft.json ## 1.8 finetune - [qwen2_5vl_lora_sft](https://github.com/hiyouga/LLaMA-Factory/blob/main/examples/README_zh.md#%E5%A4%9A%E6%A8%A1%E6%80%81%E6%8C%87%E4%BB%A4%E7%9B%91%E7%9D%A3%E5%BE%AE%E8%B0%83) - [qwen2_5vl_lora_dpo](https://github.com/hiyouga/LLaMA-Factory/blob/main/examples/README_zh.md#%E5%A4%9A%E6%A8%A1%E6%80%81-dpoorposimpo-%E8%AE%AD%E7%BB%83) - [qwen2_5vl_full_sft](https://github.com/hiyouga/LLaMA-Factory/blob/main/examples/README_zh.md#%E5%A4%9A%E6%A8%A1%E6%80%81%E6%8C%87%E4%BB%A4%E7%9B%91%E7%9D%A3%E5%BE%AE%E8%B0%83-1) ## 1.9 API推理 - python src/preprocess/qw_api_url_inference.py --input data/user_info_format_test.csv --output_file eval.csv