Text Generation
MLX
Safetensors
Chinese
English
qwen3_vl_moe
medical
healthcare
chinese
qwen
vision
conversational
4-bit precision
Instructions to use pluto6272/Qwen3-VL-30B-Medical-V3-Precision with libraries, inference providers, notebooks, and local apps. Follow these links to get started.
- Libraries
- MLX
How to use pluto6272/Qwen3-VL-30B-Medical-V3-Precision with MLX:
# Make sure mlx-lm is installed # pip install --upgrade mlx-lm # Generate text with mlx-lm from mlx_lm import load, generate model, tokenizer = load("pluto6272/Qwen3-VL-30B-Medical-V3-Precision") prompt = "Write a story about Einstein" messages = [{"role": "user", "content": prompt}] prompt = tokenizer.apply_chat_template( messages, add_generation_prompt=True ) text = generate(model, tokenizer, prompt=prompt, verbose=True) - Notebooks
- Google Colab
- Kaggle
- Local Apps
- LM Studio
- Pi new
How to use pluto6272/Qwen3-VL-30B-Medical-V3-Precision with Pi:
Start the MLX server
# Install MLX LM: uv tool install mlx-lm # Start a local OpenAI-compatible server: mlx_lm.server --model "pluto6272/Qwen3-VL-30B-Medical-V3-Precision"
Configure the model in Pi
# Install Pi: npm install -g @mariozechner/pi-coding-agent # Add to ~/.pi/agent/models.json: { "providers": { "mlx-lm": { "baseUrl": "http://localhost:8080/v1", "api": "openai-completions", "apiKey": "none", "models": [ { "id": "pluto6272/Qwen3-VL-30B-Medical-V3-Precision" } ] } } }Run Pi
# Start Pi in your project directory: pi
- Hermes Agent new
How to use pluto6272/Qwen3-VL-30B-Medical-V3-Precision with Hermes Agent:
Start the MLX server
# Install MLX LM: uv tool install mlx-lm # Start a local OpenAI-compatible server: mlx_lm.server --model "pluto6272/Qwen3-VL-30B-Medical-V3-Precision"
Configure Hermes
# Install Hermes: curl -fsSL https://hermes-agent.nousresearch.com/install.sh | bash hermes setup # Point Hermes at the local server: hermes config set model.provider custom hermes config set model.base_url http://127.0.0.1:8080/v1 hermes config set model.default pluto6272/Qwen3-VL-30B-Medical-V3-Precision
Run Hermes
hermes
- MLX LM
How to use pluto6272/Qwen3-VL-30B-Medical-V3-Precision with MLX LM:
Generate or start a chat session
# Install MLX LM uv tool install mlx-lm # Interactive chat REPL mlx_lm.chat --model "pluto6272/Qwen3-VL-30B-Medical-V3-Precision"
Run an OpenAI-compatible server
# Install MLX LM uv tool install mlx-lm # Start the server mlx_lm.server --model "pluto6272/Qwen3-VL-30B-Medical-V3-Precision" # Calling the OpenAI-compatible server with curl curl -X POST "http://localhost:8000/v1/chat/completions" \ -H "Content-Type: application/json" \ --data '{ "model": "pluto6272/Qwen3-VL-30B-Medical-V3-Precision", "messages": [ {"role": "user", "content": "Hello"} ] }'
🏥 XunDoc-30B 医疗咨询模型 V4.2
📌 模型描述
这是一个专门针对中文医疗咨询场景微调的大语言模型,基于 Qwen3-VL-30B-A3B Instruct。
V4.2 版本在 V4.1 基础上进行了重大改进,重点提升了:
- 🎯 智能判断:根据信息充足程度决定是否追问
- 🔄 回复多样性:更自然的对话体验
- 📊 医学准确性:精准的医学术语和数值
- 💝 自然人情味:不机械,更贴心
🌟 V4.2 核心改进
| 改进项 | 说明 |
|---|---|
| ✅ 智能判断 | 信息充足时直接回答,不足时才追问 |
| ✅ 回复多样性 | temperature=0.7,回复更自然 |
| ✅ 准确性提升 | 增强了精准医学知识库 |
| ✅ 自然结尾 | 不再机械地每次都问问题 |
| ✅ 损失下降89% | 从2.331降到0.263 |
🚀 快速开始
安装依赖
pip install mlx mlx-lm transformers
使用模型
方法1: MLX 命令行聊天
mlx_lm.chat --model pluto6272/XunDoc-30B-Medical-V42
方法2: Python API
from mlx_lm import load, generate
# 加载模型
model, tokenizer = load("pluto6272/XunDoc-30B-Medical-V42")
# 生成回复
prompt = "我的血压145/92,早上空腹测的,需要担心吗?"
response = generate(
model,
tokenizer,
prompt=prompt,
max_tokens=500,
temp=0.7 # 增加多样性
)
print(response)
方法3: LM Studio
- 下载模型到本地
- 在 LM Studio 中添加本地模型
- 加载并开始使用
💬 使用示例
示例1: 信息充足 → 直接回答
输入:
我的血压是145/92,早上空腹测的,之前休息了5分钟,没吃降压药
输出:
好的,我来帮您分析这个血压数值。
📊 数据解读:
- 收缩压 145 mmHg(正常<140)
- 舒张压 92 mmHg(正常<90)
- 属于 1级高血压
您的测量条件很规范(空腹、休息后),数据比较可靠。
💡 建议:
- 连续监测一周,每天同一时间测量
- 记录数值,观察变化趋势
- 减少盐分摄入(每日<6g)
- 如持续偏高,建议心内科就诊
单次测量偏高不必太紧张,持续监测更重要~
示例2: 信息不足 → 智能追问
输入:
我血压有点高
输出:
血压偏高的情况因人而异,需要了解更多才能给您准确建议。
方便告诉我:
- 具体数值是多少?(比如145/90)
- 什么时候测的?(早上/晚上,饭前/饭后)
这样我能帮您判断是否需要重视~
📊 训练指标
| 指标 | 数值 |
|---|---|
| 初始验证损失 | 2.331 |
| 最终验证损失 | 0.263 |
| 测试损失 | 0.265 |
| 测试困惑度 | 1.303 |
| 损失下降 | 89% |
| 训练步数 | 7000+ (2000 + 5000) |
🎯 训练详情
训练数据 (V4.2)
| 数据类型 | 说明 |
|---|---|
| 现有中文医学问答 | 保持专业性 |
| 图像分析数据 | 提升图像理解 |
| 情境化回复 | 智能判断何时追问 |
| 多轮对话 | 增强上下文理解 |
| 精准医学知识 | 准确的数值和术语 |
| 身份认知 | 保持一致身份 |
技术细节
- 基础模型: Qwen2-VL-30B
- 微调方法: LoRA
- 训练框架: MLX
- 学习率: 2e-6
- 批次大小: 1-2
- LoRA层数: 16
🔧 推荐生成参数
generate(
model,
tokenizer,
prompt=prompt,
max_tokens=512,
temp=0.7, # 增加多样性
top_p=0.9, # 核采样
repetition_penalty=1.1, # 减少重复
)
⚠️ 使用限制与免责声明
✅ 适用场景
- 一般健康咨询与科普
- 检查结果的初步解读
- 用药常识与注意事项
- 健康生活方式建议
❌ 不适用场景
- 紧急医疗情况(请立即就医或拨打120)
- 最终诊断判断(需要专业医生面诊)
- 处方药物开具(需要医生处方)
⚠️ 重要免责声明
本模型仅供参考学习,不能替代专业医疗建议。
- AI模型可能产生不准确或错误的信息
- 不应作为医疗决策的唯一依据
- 任何健康问题都应咨询专业医生
- 紧急情况请立即就医或拨打急救电话
📄 许可证
本模型基于 Apache 2.0 许可证开源。
🙏 致谢
- Qwen 团队: 提供优秀的 Qwen2-VL-30B 基础模型
- MLX 团队: Apple Silicon 深度学习优化框架
模型版本: V4.2
更新日期: 2024年12月
开发者: pluto6272
- Downloads last month
- 86
Model size
31B params
Tensor type
BF16
·
U32 ·
Hardware compatibility
Log In to add your hardware
4-bit