VGT-Medical-8L-SFT (100k Pre-trained Base)
这是 VGT-Medical 架构的成熟发布版本。该模型基于经过 100,000 步 深度预训练的 8 层残差 GRU 底座,并使用 6,000 条高质量医学 QA 完成了指令微调(SFT)。
💎 核心基因
- 强悍底座:不同于常规小模型,本模型拥有 100,000 步的医学语料预训练背景,具备极强的医学常识储备。
- 精准对齐:针对微调过程中出现的“语义坍缩”问题,本版本采用了“解冻 2 层 + 8 轮迭代”的均衡方案,有效隔离了不同科室的知识幻觉。
- 架构优势:纯 RNN 结构,相比 Transformer 在处理流式数据时具有更稳定的显存表现。
📈 实验表现 (Benchmark)
在针对临床常见病、药理机制的 100 项抽测中:
- 逻辑准确率:显著高于 40k 步底座版本。
- 幻觉率:在 8 轮微调后,成功解决了“咯血坐浴”等跨科室逻辑混淆问题。
- 响应速度:端侧 CPU 即可实现极速推理。
⚙️ 模型参数
| 参数 | 数值 |
|---|---|
| Pre-training Steps | 100,000 |
| SFT Strategy | 8 Epochs / Unfreeze 2-Layers |
| Hidden Dim | 768 |
| Context Window | 256 Tokens |
🚀 推理建议
为了获得最佳对话体验,请务必在生成配置中使用 Repetition Penalty:
# 推理推荐配置
generation_config = {
"repetition_penalty": 1.3, # 抑制 8 层网络特有的生成惯性
"top_p": 0.85,
"temperature": 0.7,
"max_new_tokens": 128
}
📜 许可与免责 License: Apache 2.0 Disclaimer: 本模型仅用于学术研究,不可替代专业医师的诊断建议。
- Downloads last month
- 8