bootscoder
/

Llama-3-Medical-8B-CPT-lora

Safetensors

Model card Files Files and versions

xet

Community

bootscoder commited on Nov 12, 2025

Commit

b9c28c1

verified ·

1 Parent(s): cb2f352

Update README.md

Browse files

Files changed (1) hide show

README.md +125 -52

README.md CHANGED Viewed

@@ -1,73 +1,146 @@
----
-# (!! 关键修正 !!)
-# 将 base_model 修正为 Hugging Face Hub 上的公开 ID
-# 这是为了通过 HF 的 YAML 验证
-base_model: meta-llama/Meta-Llama-3-8B
-library_name: peft
-pipeline_tag: text-generation
-tags:
-- lora
-- peft
-- llama-3
-- cpt
-- medical
-- chinese
-- bootscoder
-- transformers
-- trl
----
-# Llama-3 8B Medical CPT - LoRA 适配器
-## 模型描述
-这是一个基于 `meta-llama/Meta-Llama-3-8B` 训练的 **LoRA 适配器**。
-本适配器是医疗聊天机器人项目的第一阶段——**继续预训练 (CPT)** 的产物。
-训练数据为**中文医疗百科**和**中文医疗书籍**，目标是向 Llama-3 8B 基础模型中**注入专业的中文医疗领域知识**。
-- **开发者:** [bootscoder](https://huggingface.co/bootscoder)
-- **基础模型:** `meta-llama/Meta-Llama-3-8B`
-- **语言:** 中文 (zh), 英文 (en)
-- **License:** meta-llama-3
-## 如何使用 (PEFT)
-必须先加载基础模型 (`meta-llama/Meta-Llama-3-8B`)，然后再将此适配器（补丁）应用到它上面。
 ```python
 import torch
 from peft import PeftModel
 from transformers import AutoModelForCausalLM, AutoTokenizer
-# 基础模型ID (Llama-3 8B)
-base_model_id = "meta-llama/Meta-Llama-3-8B"
-# 你的 LoRA 适配器仓库 ID (替换为你的最终上传路径)
-# 例如: "bootscoder/Llama-3-Medical-8B-CPT-lora"
-lora_adapter_id = "bootscoder/Llama-3-Medical-8B-CPT-lora"
-# 1. 加载基础模型和分词器
-print(f"正在加载基础模型: {base_model_id}")
 base_model = AutoModelForCausalLM.from_pretrained(
-    base_model_id,
     torch_dtype=torch.bfloat16,
-    device_map="auto",
-    trust_remote_code=True
 )
-tokenizer = AutoTokenizer.from_pretrained(base_model_id, trust_remote_code=True)
-# 2. 加载 LoRA 适配器并应用
-print(f"正在加载 LoRA 适配器: {lora_adapter_id}")
-model = PeftModel.from_pretrained(base_model, lora_adapter_id)
-# 3. (可选) 合并 LoRA 权重以提高推理速度
-# 这将返回一个标准的 Llama-3 模型，但已包含医疗知识
-print("正在合并 LoRA 适配器...")
-merged_model = model.merge_and_unload()
-print("合并完成。")
-# 'merged_model' 现在可以像标准模型一样用于推理
-# 'tokenizer' 也应随模型一起保存和使用

+# Medical-ChatBot-CPT LoRA 模型
+## 模型概述
+基于 LLaMA-3.1-8B 的医疗聊天机器人持续预训练（Continual Pre-Training, CPT）LoRA 适配器。
+- **基础模型**: meta-llama/Llama-3.1-8B
+- **训练阶段**: Continual Pre-Training (CPT)
+- **适配器大小**: ~26.5MB
+## 1. 数据集
+**数据集**: [bootscoder/Medical-ChatBot-CPT](https://huggingface.co/datasets/bootscoder/Medical-ChatBot-CPT)
+详细数据集信息请查看上述链接。
+## 2. 训练流程
+### 技术栈
+- **DeepSpeed**: ZeRO Stage 1 分布式训练
+- **PEFT**: LoRA 参数高效微调
+- **BitsAndBytes**: 4-bit NF4 量化
+- **Flash Attention 2**: 加速注意力计算
+- **TRL**: SFTTrainer 训练接口
+### 训练阶段
+1. **模型初始化**: 加载 LLaMA-3.1-8B 并应用 4-bit 量化
+2. **LoRA 配置**: 初始化低秩适配器（r=32, alpha=8）
+3. **分布式训练**: DeepSpeed 8卡并行训练，1 epoch
+4. **保存模型**: 保存 LoRA 适配器权重
+## 3. 参数配置
+### 硬件配置
+```
+GPU: 8 × NVIDIA A5000 (24GB VRAM)
+分布式: DeepSpeed ZeRO Stage 1
+```
+### 训练超参数
+```yaml
+seq_length: 2048                    # 序列长度
+batch_size: 2                       # 每卡批次大小
+gradient_accumulation_steps: 16     # 梯度累积
+effective_batch_size: 256           # 2 × 8 × 16
+num_train_epochs: 1                 # 训练轮数
+learning_rate: 1e-5                 # 学习率
+lr_scheduler_type: cosine           # 余弦调度
+warmup_ratio: 0.1                   # 预热比例
+bf16: true                          # BF16 混合精度
+gradient_checkpointing: true        # 梯度检查点
+packing: true                       # 序列打包
+```
+### QLoRA 配置
+**量化配置**:
+```python
+load_in_4bit: True                  # 4-bit 量化
+bnb_4bit_quant_type: nf4            # NF4 量化
+bnb_4bit_compute_dtype: bfloat16    # BF16 计算
+```
+**LoRA 配置**:
+```python
+r: 32                               # LoRA 秩
+lora_alpha: 8                       # 缩放因子 (alpha/r = 0.25)
+target_modules: [q_proj, k_proj]    # Q, K 投影层
+bias: none                          # 不训练 bias
+trainable_params: ~26.5MB           # 可训练参数 (~0.2%)
+```
+**显存优化效果**:
+- 原始全参数训练 (FP16): ~72GB per GPU
+- 使用 QLoRA: ~7-8GB per GPU
+- **显存节约: ~90%**
+## 4. 峰值显存占用
+**单卡峰值**: ____________ GB
+**8卡总计**: ____________ GB
+## 5. 模型预期表现
+### 相比 Base LLaMA-3.1-8B 的改进
+**改进**:
+- 更好理解医疗术语和概念
+- 输出更符合医疗领域语言风格
+- 为后续 SFT 训练提供更好初始化
+**局限**:
+- 未经指令微调，不理解指令格式
+- 输出结构化程度不足
+- 不建议直接部署使用
+## 使用方法
+### 加载模型
 ```python
 import torch
 from peft import PeftModel
 from transformers import AutoModelForCausalLM, AutoTokenizer
+# 加载基础模型
 base_model = AutoModelForCausalLM.from_pretrained(
+    "meta-llama/Llama-3.1-8B",
     torch_dtype=torch.bfloat16,
+    device_map="auto"
 )
+# 加载 LoRA 适配器
+model = PeftModel.from_pretrained(base_model, "/path/to/pretrained-lora")
+tokenizer = AutoTokenizer.from_pretrained("/path/to/pretrained-lora")
+# 合并适配器（可选）
+model = model.merge_and_unload()
+```
+### 生成文本
+```python
+inputs = tokenizer("高血压是一种", return_tensors="pt").to(model.device)
+outputs = model.generate(**inputs, max_new_tokens=128)
+print(tokenizer.decode(outputs[0]))
+```
+## 模型文件
+```
+pretrained-lora/
+├── adapter_config.json          # LoRA 配置
+├── adapter_model.safetensors    # LoRA 权重 (~26.5MB)
+├── special_tokens_map.json      # 特殊 token 映射
+├── tokenizer.json               # 分词器
+└── tokenizer_config.json        # 分词器配置
+```
+## 许可证
+遵循 [Llama 3.1 Community License](https://github.com/meta-llama/llama-models/blob/main/models/llama3_1/LICENSE)