大模型微调初体验——个人 LeetCode 风格化

这是本人第一次尝试使用LLama Factory进行大模型微调。

📌 实验概览：以Qwen2.5-Coder-7B-Instruct为基座模型，采用LoRA方式进行个人LeetCode代码风格化微调，LoRA参数为rank=8、alpha=16、dropout=0.05，使用qwen模板，数据按8:1:1划分，随机种子42。

📊 数据规模：全量样本共2487个题目，为本人在Leetcode首次AC题目的代码，其中训练集1989个、验证集249个、测试集249个。

📈 关键结果：训练集最终loss=0.4541，验证集loss=0.4185，测试集loss=0.3934，微调训练时长约29分56秒。

📂 目录说明：model/（LoRA适配器及tokenizer文件）、metrics/（指标与日志摘要）、plots/（训练曲线图）、config/（各类脚本及参数文件）、logs/（完整训练日志）、data/（全量及切分数据）。

🔑 最重要文件：model/adapter_model.safetensors、metrics下各类评估结果文件、plots下训练曲线图、logs/train.log。

使用提示

这个包里保存的是 LoRA 适配器，不是完整新模型。推理或评估时，需要和原始 Qwen2.5-Coder-7B-Instruct 一起加载。

如果你想基于这个整理包重新在测试集上跑一次 loss，可以使用：

这个包根目录下附带了一个精简版 dataset_info.json，方便把本目录直接当成 dataset_dir 使用。

仅用于个人学习、研究与leetcode风格化微调实验。

任何对其中数据、日志、模型权重及相关材料的使用、复制、分发或公开发布，都应由使用者自行确认其符合适用法律法规、平台规则、版权要求、隐私要求及其他第三方权利限制。

若数据存在侵权问题，请联系删除。

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Base model

Finetuned

Finetuned

Adapter

(675)

this model