Spaces:

miyuki2026
/

OpenMiniMind

Sleeping

App Files Files Community

miyuki2026 commited on 16 days ago

Commit

4012cf3

1 Parent(s): 4733ac1

update

Browse files

Files changed (2) hide show

examples/tutorials/grpo/step_2_train_grpo_model_unsloth_ddp.py +7 -3
examples/tutorials/sft_for_function_call/step_2_train_model.py +160 -0

examples/tutorials/grpo/step_2_train_grpo_model_unsloth_ddp.py CHANGED Viewed

@@ -14,7 +14,11 @@ torchrun --nproc_per_node=4 step_2_train_grpo_model_unsloth_ddp.py
 --------------
-nohup torchrun --nproc_per_node=4 step_2_train_grpo_model_unsloth_ddp.py &
 kill -9 `ps -aef | grep 'step_2_train_grpo_model_unsloth_ddp.py' | grep -v grep | awk '{print $2}'`
@@ -104,7 +108,7 @@ def get_args():
     parser.add_argument("--dataset_process_dir",
                         default=(temp_directory / "dataset_process_dir").as_posix(),type=str)
     # 训练参数
-    parser.add_argument("--valid_dataset_size", default=2000, type=int)
     parser.add_argument("--max_seq_length", default=2048, type=int)
     parser.add_argument("--lora_rank", default=32, type=int),
@@ -375,7 +379,7 @@ def main():
         load_best_model_at_end=True,
         metric_for_best_model="reward",  # 使用奖励作为评估指标
         greater_is_better=True,
-        fp16=False,
         bf16=False,
         max_grad_norm=1.0,
         report_to="none",  # 可根据需要改为"wandb"等

 --------------
+nohup torchrun --nproc_per_node=4 step_2_train_grpo_model_unsloth_ddp.py \
+--valid_dataset_size 500 \
+--lora_rank 16 \
+&
 kill -9 `ps -aef | grep 'step_2_train_grpo_model_unsloth_ddp.py' | grep -v grep | awk '{print $2}'`
     parser.add_argument("--dataset_process_dir",
                         default=(temp_directory / "dataset_process_dir").as_posix(),type=str)
     # 训练参数
+    parser.add_argument("--valid_dataset_size", default=500, type=int)
     parser.add_argument("--max_seq_length", default=2048, type=int)
     parser.add_argument("--lora_rank", default=32, type=int),
         load_best_model_at_end=True,
         metric_for_best_model="reward",  # 使用奖励作为评估指标
         greater_is_better=True,
+        fp16=True,
         bf16=False,
         max_grad_norm=1.0,
         report_to="none",  # 可根据需要改为"wandb"等

examples/tutorials/sft_for_function_call/step_2_train_model.py ADDED Viewed

	@@ -0,0 +1,160 @@

+#!/usr/bin/python3
+# -*- coding: utf-8 -*-
+"""
+https://huggingface.co/datasets/Team-ACE/ToolACE/viewer/default/train?row=0
+"""
+import dataset
+from transformers import AutoTokenizer
+import torch
+# 选择一个基础模型，这里以 Qwen2.5-7B-Instruct 为例
+model_name = "Qwen/Qwen2.5-7B-Instruct"
+tokenizer = AutoTokenizer.from_pretrained(model_name)
+# 确保设置有填充token，通常用eos_token
+if tokenizer.pad_token is None:
+    tokenizer.pad_token = tokenizer.eos_token
+def format_toolace_for_sft(example):
+    """
+    将ToolACE数据集的一个样本格式化为模型输入，并生成损失掩码。
+    """
+    # 1. 提取系统提示（包含工具定义）
+    system_prompt = example.get('system', '')
+    # 将工具定义也作为系统消息的一部分
+    # 有些样本可能没有独立的system字段，需要根据实际情况调整
+    messages = []
+    if system_prompt:
+        messages.append({"role": "system", "content": system_prompt})
+    # 2. 处理多轮对话
+    conversations = example['conversations']
+    # 假设conversations的格式是 [{"from": "human", "value": "..."}, {"from": "gpt", "value": "..."}, ...]
+    # 我们需要将其转换为 {"role": "user"/"assistant", "content": "..."} 格式
+    for turn in conversations:
+        if turn['from'] == 'human':
+            messages.append({"role": "user", "content": turn['value']})
+        elif turn['from'] == 'gpt':
+            # 这里，助手的回复value可能包含工具调用和普通文本
+            # 我们将其作为普通assistant消息处理，SFTTrainer会监督整个回复
+            messages.append({"role": "assistant", "content": turn['value']})
+        else:
+            # 处理其他角色，如工具执行结果（observation）
+            # 通常工具执行结果会以另一个角色出现，例如 'tool' 或 'observation'
+            # 这里为了简化，我们先忽略，或作为tool角色添加
+            if turn['from'] == 'tool':
+                messages.append({"role": "tool", "content": turn['value'], "name": turn.get('name', 'tool')})
+    # 3. 应用聊天模板生成文本
+    # tokenize=False 返回字符串，方便查看
+    formatted_text = tokenizer.apply_chat_template(
+        messages,
+        tokenize=False,
+        add_generation_prompt=False  # 训练时不添加生成提示
+    )
+    # 4. 创建损失掩码
+    # 我们需要标记出哪些部分是"assistant"的回复，只有这些部分的token才计算损失。
+    # 这里采用一种简单但有效的方法：对模板化后的完整文本进行tokenize，
+    # 并标记出属于assistant回复的部分。
+    # 首先，对完整对话进行tokenize
+    tokenized_full = tokenizer(
+        formatted_text,
+        truncation=True,
+        max_length=2048,  # 设置一个最大长度
+        return_tensors="pt",
+        return_offsets_mapping=True  # 返回偏移映射，用于精确定位
+    )
+    # 为了简化，我们使用一个更通用的方法：对每个消息分别tokenize，并构建标签。
+    # 这是SFTTrainer内部常用的方式，我们也可以自己实现，但这里演示核心逻辑。
+    # 实际上，SFTTrainer可以通过DataCollatorForCompletionOnlyLM自动完成此操作。
+    # 但为了清晰展示，我们返回必要的字段，让SFTTrainer处理掩码。
+    # 我们只需要返回包含了最终文本的字段即可。SFTTrainer会处理剩下的。
+    return {"text": formatted_text}
+# 应用格式化函数到数据集
+formatted_dataset = dataset.map(format_toolace_for_sft)
+print("格式化后的第一个样本文本预览:\n")
+print(formatted_dataset[0]['text'][:1000])  # 打印前1000个字符看看
+from trl import SFTTrainer
+from transformers import TrainingArguments, AutoModelForCausalLM, BitsAndBytesConfig
+from peft import LoraConfig, get_peft_model
+import torch
+# 1. 配置量化 (QLoRA) 以节省显存
+bnb_config = BitsAndBytesConfig(
+    load_in_4bit=True,
+    bnb_4bit_quant_type="nf4",
+    bnb_4bit_compute_dtype=torch.bfloat16,
+    bnb_4bit_use_double_quant=True,
+)
+# 2. 加载模型
+model = AutoModelForCausalLM.from_pretrained(
+    model_name,
+    quantization_config=bnb_config,
+    device_map="auto",
+    trust_remote_code=True,
+    torch_dtype=torch.bfloat16,
+)
+# 3. 配置 LoRA
+peft_config = LoraConfig(
+    r=16, # 秩
+    lora_alpha=32, # 缩放参数
+    target_modules=["q_proj", "k_proj", "v_proj", "o_proj", "gate_proj", "up_proj", "down_proj"], # 常见目标模块
+    lora_dropout=0.05,
+    bias="none",
+    task_type="CAUSAL_LM",
+)
+# 4. 配置训练参数
+training_args = TrainingArguments(
+    output_dir="./qwen2.5-toolace-lora",          # 模型保存路径
+    num_train_epochs=3,                            # 训练轮数
+    per_device_train_batch_size=2,                  # 根据显存调整
+    gradient_accumulation_steps=4,                  # 梯度累积，模拟更大batch
+    warmup_steps=100,                               # 预热步数
+    logging_steps=10,                               # 日志记录步数
+    save_strategy="epoch",                           # 每轮保存一次
+    learning_rate=2e-4,                             # 学习率
+    bf16=True,                                       # 使用bfloat16
+    save_total_limit=2,                              # 最多保存2个checkpoint
+    remove_unused_columns=False,                      # 保留数据集中的原始列
+    report_to="none",                                 # 不报告到外部工具
+)
+# 5. 初始化 SFTTrainer
+# 关键点：通过 formatting_func 返回 'text' 字段，SFTTrainer会自动处理
+# 并且可以通过 response_template 来指定只计算助手回复部分的损失
+trainer = SFTTrainer(
+    model=model,
+    args=training_args,
+    train_dataset=formatted_dataset,
+    tokenizer=tokenizer,
+    peft_config=peft_config,
+    max_seq_length=2048,                              # 最大序列长度
+    dataset_text_field="text",                         # 指定包含训练文本的字段
+)
+# 6. 开始训练
+trainer.train()
+# 7. 保存最终的LoRA权重
+trainer.save_model("./qwen2.5-toolace-lora-final")
+if __name__ == "__main__":
+    pass