--- language: zh license: mit tags: - multimodal - vision - audio - video - chinese - gguf - llama.cpp pipeline_tag: image-text-to-text --- # 白虎-v2 白虎-v2 是一款多模态大语言模型,支持文本、图像、音频与视频输入,适用于中文场景下的多模态理解与生成任务。 --- ## 模型简介 - **模型名称**: 白虎-v2 - **上下文长度**: 131,072 tokens - **词表大小**: 262,144 - **数据类型**: float16 - **支持模态**: 文本 / 图像 / 音频 / 视频 --- ## 仓库文件说明 | 文件 | 说明 | |------|------| | `BaiHu-v2.Q4_K_M.gguf` | 主模型 GGUF 量化版本(Q4_K_M),适合本地 CPU/GPU 推理 | | `BaiHu-v2.F16-mmproj.gguf` | 多模态投影层(mmproj)FP16 版本,配合主模型用于图像/音频/视频理解 | | `Modelfile` | llama.cpp / Ollama 的模型配置文件示例 | > 推荐搭配使用:`BaiHu-v2.Q4_K_M.gguf` + `BaiHu-v2.F16-mmproj.gguf` --- ## 模型能力 - 中文多轮对话 - 图像描述与视觉问答 - 音频内容理解 - 视频内容理解 - 工具调用 --- ## 使用方法 ### 使用 llama.cpp / Ollama 推理 参考仓库中的 `Modelfile` 创建 Ollama 模型: ```bash ollama create BaiHu-v2 -f Modelfile ollama run BaiHu-v2 ``` ### 使用 llama.cpp 命令行 ```bash ./llama-cli \ -m BaiHu-v2.Q4_K_M.gguf \ --mmproj BaiHu-v2.F16-mmproj.gguf \ --image example.jpg \ -p "请描述这张图片:" ``` ### 使用 transformers(完整模型) 完整 PyTorch/Safetensors 版本请参考配套仓库。本仓库仅提供 GGUF 量化版本。 --- ## 模型配置 - **文本模型**: 35 层,隐藏维度 1536,8 头注意力 - **视觉编码器**: 16 层,隐藏维度 768,图像 token 数 280 - **音频编码器**: 12 层,隐藏维度 1024 - **视频**: 支持 32 帧采样,每帧最大 70 个 soft token --- ## 训练信息 - **训练框架**: Unsloth - **Unsloth 版本**: 2026.6.8 - **优化目标**: 在保持多模态能力的同时,提升中文指令跟随与对话质量 --- ## 免责声明 本模型生成的内容可能受训练数据影响。请勿将模型输出作为专业建议(医疗、法律、金融等)使用。模型可能存在幻觉、偏见或不准确信息,请谨慎使用并自行验证。 --- ## 授权协议 本模型采用 **MIT 协议** 开源。使用本模型前请仔细阅读并遵守 MIT 许可协议条款。 --- ## 致谢 - [Unsloth](https://unsloth.ai/) - [llama.cpp](https://github.com/ggerganov/llama.cpp)