BaiHu-gguf / README.md
NovaAI6868's picture
Upload README.md with huggingface_hub
83fc2b1 verified
|
Raw
History Blame Contribute Delete
2.53 kB
---
language: zh
license: mit
tags:
- multimodal
- vision
- audio
- video
- chinese
- gguf
- llama.cpp
pipeline_tag: image-text-to-text
---
# 白虎-v2
白虎-v2 是一款多模态大语言模型,支持文本、图像、音频与视频输入,适用于中文场景下的多模态理解与生成任务。
---
## 模型简介
- **模型名称**: 白虎-v2
- **上下文长度**: 131,072 tokens
- **词表大小**: 262,144
- **数据类型**: float16
- **支持模态**: 文本 / 图像 / 音频 / 视频
---
## 仓库文件说明
| 文件 | 说明 |
|------|------|
| `BaiHu-v2.Q4_K_M.gguf` | 主模型 GGUF 量化版本(Q4_K_M),适合本地 CPU/GPU 推理 |
| `BaiHu-v2.F16-mmproj.gguf` | 多模态投影层(mmproj)FP16 版本,配合主模型用于图像/音频/视频理解 |
| `Modelfile` | llama.cpp / Ollama 的模型配置文件示例 |
> 推荐搭配使用:`BaiHu-v2.Q4_K_M.gguf` + `BaiHu-v2.F16-mmproj.gguf`
---
## 模型能力
- 中文多轮对话
- 图像描述与视觉问答
- 音频内容理解
- 视频内容理解
- 工具调用
---
## 使用方法
### 使用 llama.cpp / Ollama 推理
参考仓库中的 `Modelfile` 创建 Ollama 模型:
```bash
ollama create BaiHu-v2 -f Modelfile
ollama run BaiHu-v2
```
### 使用 llama.cpp 命令行
```bash
./llama-cli \
-m BaiHu-v2.Q4_K_M.gguf \
--mmproj BaiHu-v2.F16-mmproj.gguf \
--image example.jpg \
-p "请描述这张图片:"
```
### 使用 transformers(完整模型)
完整 PyTorch/Safetensors 版本请参考配套仓库。本仓库仅提供 GGUF 量化版本。
---
## 模型配置
- **文本模型**: 35 层,隐藏维度 1536,8 头注意力
- **视觉编码器**: 16 层,隐藏维度 768,图像 token 数 280
- **音频编码器**: 12 层,隐藏维度 1024
- **视频**: 支持 32 帧采样,每帧最大 70 个 soft token
---
## 训练信息
- **训练框架**: Unsloth
- **Unsloth 版本**: 2026.6.8
- **优化目标**: 在保持多模态能力的同时,提升中文指令跟随与对话质量
---
## 免责声明
本模型生成的内容可能受训练数据影响。请勿将模型输出作为专业建议(医疗、法律、金融等)使用。模型可能存在幻觉、偏见或不准确信息,请谨慎使用并自行验证。
---
## 授权协议
本模型采用 **MIT 协议** 开源。使用本模型前请仔细阅读并遵守 MIT 许可协议条款。
---
## 致谢
- [Unsloth](https://unsloth.ai/)
- [llama.cpp](https://github.com/ggerganov/llama.cpp)