Update README.md
Browse files
README.md
CHANGED
|
@@ -12,10 +12,13 @@ library_name: transformers
|
|
| 12 |
pipeline_tag: text-generation
|
| 13 |
---
|
| 14 |
|
|
|
|
| 15 |
# 基于 Meta-Llama-3.1-8B-Instruct 的中文医疗对话模型
|
| 16 |
|
| 17 |
本模型通过在 `meta-llama/Llama-3.1-8B` 基础模型上,使用 `Flmc/DISC-Med-SFT` 数据集进行监督微调(SFT)得到。该模型旨在为用户提供医疗相关的对话支持。
|
| 18 |
|
|
|
|
|
|
|
| 19 |
## 模型架构
|
| 20 |
|
| 21 |
本模型采用了 LoRA (Low-Rank Adaptation) 技术,训练后的 LoRA 适配器权重保存在 `adapter_model.safetensors` 文件中。
|
|
|
|
| 12 |
pipeline_tag: text-generation
|
| 13 |
---
|
| 14 |
|
| 15 |
+
|
| 16 |
# 基于 Meta-Llama-3.1-8B-Instruct 的中文医疗对话模型
|
| 17 |
|
| 18 |
本模型通过在 `meta-llama/Llama-3.1-8B` 基础模型上,使用 `Flmc/DISC-Med-SFT` 数据集进行监督微调(SFT)得到。该模型旨在为用户提供医疗相关的对话支持。
|
| 19 |
|
| 20 |
+
# 使用GRPO训练的医疗推理模型看这里[https://huggingface.co/lastmass/Qwen3_Medical_GRPO]
|
| 21 |
+
|
| 22 |
## 模型架构
|
| 23 |
|
| 24 |
本模型采用了 LoRA (Low-Rank Adaptation) 技术,训练后的 LoRA 适配器权重保存在 `adapter_model.safetensors` 文件中。
|