慧鉴 (IntrinSight) 是一款视觉语言大模型 (Large Vision-Language Model, LVLM),专为医疗领域的高级推理与分析任务而微调。它的设计初衷是成为一面“智慧明镜”,能够直接解读医学影像(如X光、CT、MRI等),并将视觉信息与相关的文本信息(如临床记录或用户提问)相结合,从而辅助医疗专业人员做出更精准的判断。
与只能处理文本的传统语言模型不同,“慧鉴”拥有“视觉”能力。它将其推理分析建立在真实的视觉证据之上,使其成为一个强大工具,可用于影像异常检测、辅助影像诊断、以及根据影像生成描述性报告等任务。
模型概述
基础模型: Gemma-3-4B-IT
训练数据集: **GMAI-Reasoning10K**。这是一个高质量的医学影像推理数据集,包含10,000个精心挑选的样本。数据来源于Kaggle、GrandChallenge和Open-Release等可靠来源的95个医疗数据集,覆盖了包括X光、CT和MRI在内的12种成像模态。数据预处理遵循了SAMed-20M的标准化方法:3D数据(CT/MRI)被提取为独立的切片,像素值归一化至0-255范围,而视频数据则提取了关键帧。对于每个样本,利用关键元数据和GPT构建了信息丰富的单项选择题,且每个问题只有一个正确答案,并且采用了严格的质量控制和拒绝采样策略,以确保最终数据集的高质量和可靠性。
训练框架: VeRL
训练过程
本模型使用创新的 Dr.GRPO (Dr. Group Reward Policy Optimization) 算法,训练了 3个 epoch。训练的核心是让模型学会将其文本推理能力“锚定”在影像的视觉证据之上。
我们使用了格式奖励 (Format Reward)、准确度奖励 (Accuracy Reward) 和 重复度惩罚 (Repetition Penalty) 三种奖励函数。
整个训练流程的构建和管理均采用 VeRL 框架,该框架为基于强化学习的模型训练提供了稳定高效的环境。
如何使用
我们建议使用系统提示 (system prompt) 来启用推理模式。以下是一个示例提示:
SYSTEM_PROMPT = (
"A conversation between user and assistant. The user asks a question, and the assistant solves it. The assistant "
"first thinks about the reasoning process in the mind and then provides the user with the answer."
"The reasoning process is to solve the problem step by step, so you will think about it sinceraly."
"The reasoning process and answer are enclosed within <think> </think> and <answer> </answer> tags, respectively, i.e., "
"<think> reasoning process here </think><answer> answer here </answer>."
)
使用更大的预算可能会提升模型的性能, 因此您可以尝试使用更大的 max_tokens,例如16384。
免责声明
仅供研究与辅助之用。 本模型是为学术和研究目的而开发的实验性工具,并非医疗设备,且不能替代执业医师的专业判断。任何由“慧鉴”模型生成的输出(包括其对影像的解读),在用于临床决策前,均须由专业医疗人员进行仔细审查和验证。开发者对基于模型输出所采取的任何行动不承担任何责任。