VGT-Medical-8L-SFT (100k Pre-trained Base)

这是 VGT-Medical 架构的成熟发布版本。该模型基于经过 100,000 步 深度预训练的 8 层残差 GRU 底座,并使用 6,000 条高质量医学 QA 完成了指令微调(SFT)。

💎 核心基因

  • 强悍底座:不同于常规小模型,本模型拥有 100,000 步的医学语料预训练背景,具备极强的医学常识储备。
  • 精准对齐:针对微调过程中出现的“语义坍缩”问题,本版本采用了“解冻 2 层 + 8 轮迭代”的均衡方案,有效隔离了不同科室的知识幻觉。
  • 架构优势:纯 RNN 结构,相比 Transformer 在处理流式数据时具有更稳定的显存表现。

📈 实验表现 (Benchmark)

在针对临床常见病、药理机制的 100 项抽测中:

  • 逻辑准确率:显著高于 40k 步底座版本。
  • 幻觉率:在 8 轮微调后,成功解决了“咯血坐浴”等跨科室逻辑混淆问题。
  • 响应速度:端侧 CPU 即可实现极速推理。

⚙️ 模型参数

参数 数值
Pre-training Steps 100,000
SFT Strategy 8 Epochs / Unfreeze 2-Layers
Hidden Dim 768
Context Window 256 Tokens

🚀 推理建议

为了获得最佳对话体验,请务必在生成配置中使用 Repetition Penalty

# 推理推荐配置
generation_config = {
    "repetition_penalty": 1.3, # 抑制 8 层网络特有的生成惯性
    "top_p": 0.85,
    "temperature": 0.7,
    "max_new_tokens": 128
}

📜 许可与免责 License: Apache 2.0 Disclaimer: 本模型仅用于学术研究,不可替代专业医师的诊断建议。

Downloads last month
8
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support