大模型微调初体验——个人 LeetCode 风格化

这是本人第一次尝试使用LLama Factory进行大模型微调。

📌 实验概览:以Qwen2.5-Coder-7B-Instruct为基座模型,采用LoRA方式进行个人LeetCode代码风格化微调,LoRA参数为rank=8、alpha=16、dropout=0.05,使用qwen模板,数据按8:1:1划分,随机种子42。

📊 数据规模:全量样本共2487个题目,为本人在Leetcode首次AC题目的代码,其中训练集1989个、验证集249个、测试集249个。

📈 关键结果:训练集最终loss=0.4541,验证集loss=0.4185,测试集loss=0.3934,微调训练时长约29分56秒。

📂 目录说明:model/(LoRA适配器及tokenizer文件)、metrics/(指标与日志摘要)、plots/(训练曲线图)、config/(各类脚本及参数文件)、logs/(完整训练日志)、data/(全量及切分数据)。

🔑 最重要文件:model/adapter_model.safetensors、metrics下各类评估结果文件、plots下训练曲线图、logs/train.log。

使用提示

这个包里保存的是 LoRA 适配器,不是完整新模型。推理或评估时,需要和原始 Qwen2.5-Coder-7B-Instruct 一起加载。

如果你想基于这个整理包重新在测试集上跑一次 loss,可以使用:

  • config/run_test_eval_qwen_lora_split811_20260329.sh

这个包根目录下附带了一个精简版 dataset_info.json,方便把本目录直接当成 dataset_dir 使用。

声明

仅用于个人学习、研究与leetcode风格化微调实验。

任何对其中数据、日志、模型权重及相关材料的使用、复制、分发或公开发布,都应由使用者自行确认其符合适用法律法规、平台规则、版权要求、隐私要求及其他第三方权利限制。

若数据存在侵权问题,请联系删除。

Downloads last month
-
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for chuoer/qwen2.5-coder-7b-personal-style-lora

Base model

Qwen/Qwen2.5-7B
Adapter
(675)
this model