VGT-Medical-8L-SFT (100k Pre-trained Base)

这是 VGT-Medical 架构的成熟发布版本。该模型基于经过 100,000 步 深度预训练的 8 层残差 GRU 底座，并使用 6,000 条高质量医学 QA 完成了指令微调（SFT）。

💎 核心基因

强悍底座：不同于常规小模型，本模型拥有 100,000 步的医学语料预训练背景，具备极强的医学常识储备。
精准对齐：针对微调过程中出现的“语义坍缩”问题，本版本采用了“解冻 2 层 + 8 轮迭代”的均衡方案，有效隔离了不同科室的知识幻觉。
架构优势：纯 RNN 结构，相比 Transformer 在处理流式数据时具有更稳定的显存表现。

📈 实验表现 (Benchmark)

在针对临床常见病、药理机制的 100 项抽测中：

逻辑准确率：显著高于 40k 步底座版本。
幻觉率：在 8 轮微调后，成功解决了“咯血坐浴”等跨科室逻辑混淆问题。
响应速度：端侧 CPU 即可实现极速推理。

⚙️ 模型参数

参数	数值
Pre-training Steps	100,000
SFT Strategy	8 Epochs / Unfreeze 2-Layers
Hidden Dim	768
Context Window	256 Tokens

🚀 推理建议

为了获得最佳对话体验，请务必在生成配置中使用 Repetition Penalty：

# 推理推荐配置
generation_config = {
    "repetition_penalty": 1.3, # 抑制 8 层网络特有的生成惯性
    "top_p": 0.85,
    "temperature": 0.7,
    "max_new_tokens": 128
}

📜 许可与免责 License: Apache 2.0 Disclaimer: 本模型仅用于学术研究，不可替代专业医师的诊断建议。

Downloads last month: 8