説明なし

18 コミット

jch 381a7bac0a 调整格式		3 ヶ月前
src	f482000757 同步prompt	4 ヶ月前
.gitignore	4be9b09c84 init	6 ヶ月前
README.md	381a7bac0a 调整格式	3 ヶ月前

1. finetune性别大模型(昵称&头像)

1.0 可以尝试直接使用微信性别标签，不用人工标注数据(跳过1.1-1.3环节，后知后觉)

videoods.wx_user_wechar_detail 表中的gender字段

1.1 下载随机数据

python src/preprocess/download_user_info.py --num 4000 --output_file data/user_info.csv

1.2 标注数据

根据昵称(nick_name)和头像(avatar_url), 标注data/user_info.csv的gender[男性|女性|未知]

1.3 合并标注后的数据

将标注完成的数据下载到本地，并保存为csv格式
python src/preprocess/merge_label_data.py --files data/微信昵称&头像\ -\ 1-昌辉-完成.csv,data/微信昵称&头像\ -\ 2-张博-完成.csv,data/微信昵称&头像\ -\ 3-jh-完成.csv,data/微信昵称&头像\ -\ 4-ln-完成.csv,data/微信昵称&头像\ -\ 5-wz-完成.csv,data/微信昵称&头像\ -\ 6-dm-完成.csv --output_file data/user_info_label.csv

1.4 下载头像

python src/preprocess/download_image.py --input_file data/user_info_label.csv --image_dir image

1.5 数据格式化

python src/preprocess/format_user_info.py --input_file data/user_info_label.csv --image_dir image --output_file data/user_info_format.csv

1.6 拆分训练和测试集

python src/preprocess/split_train_test.py --input_file data/user_info_format.csv --train_file data/user_info_format_train.csv --test_file data/user_info_format_test.csv

1.7 生成训练数据

python src/preprocess/generate_qw2_5_lora_sft_json.py --input_file data/user_info_format_train.csv --output_file data/train_sft.json

1.8 finetune

qwen2_5vl_lora_sft
qwen2_5vl_lora_dpo
qwen2_5vl_full_sft
llamafactory-cli train examples/train_lora/qwen2_5vl_lora_sft.yaml [修改数据集]

1.9 llamafactory部署

llamafactory仓库
llamafactory文档
llamafactory部署
API_PORT=8000 CUDA_VISIBLE_DEVICES=0 llamafactory-cli api examples/inference/qwen2_5vl.yaml

1.10 api推理

python src/preprocess/qw_api_url_inference.py --input data/user_info_format_test.csv --output_file test_result.csv

1.11 评估

python src/preprocess/eval_result.py --input_file test_result.csv