How to use from
llama.cpp
Install (macOS, Linux)
curl -LsSf https://llama.app/install.sh | sh
# Start a local OpenAI-compatible server with a web UI:
llama serve -hf NovaAI6868/BaiHu-gguf:F16
# Run inference directly in the terminal:
llama cli -hf NovaAI6868/BaiHu-gguf:F16
Install from WinGet (Windows)
winget install llama.cpp
# Start a local OpenAI-compatible server with a web UI:
llama serve -hf NovaAI6868/BaiHu-gguf:F16
# Run inference directly in the terminal:
llama cli -hf NovaAI6868/BaiHu-gguf:F16
Use pre-built binary
# Download pre-built binary from:
# https://github.com/ggerganov/llama.cpp/releases
# Start a local OpenAI-compatible server with a web UI:
./llama-server -hf NovaAI6868/BaiHu-gguf:F16
# Run inference directly in the terminal:
./llama-cli -hf NovaAI6868/BaiHu-gguf:F16
Build from source code
git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp
cmake -B build
cmake --build build -j --target llama-server llama-cli
# Start a local OpenAI-compatible server with a web UI:
./build/bin/llama-server -hf NovaAI6868/BaiHu-gguf:F16
# Run inference directly in the terminal:
./build/bin/llama-cli -hf NovaAI6868/BaiHu-gguf:F16
Use Docker
docker model run hf.co/NovaAI6868/BaiHu-gguf:F16
Quick Links

白虎-v2

白虎-v2 是一款多模态大语言模型,支持文本、图像、音频与视频输入,适用于中文场景下的多模态理解与生成任务。


模型简介

  • 模型名称: 白虎-v2
  • 上下文长度: 131,072 tokens
  • 词表大小: 262,144
  • 数据类型: float16
  • 支持模态: 文本 / 图像 / 音频 / 视频

仓库文件说明

文件 说明
BaiHu-v2.Q4_K_M.gguf 主模型 GGUF 量化版本(Q4_K_M),适合本地 CPU/GPU 推理
BaiHu-v2.F16-mmproj.gguf 多模态投影层(mmproj)FP16 版本,配合主模型用于图像/音频/视频理解
Modelfile llama.cpp / Ollama 的模型配置文件示例

推荐搭配使用:BaiHu-v2.Q4_K_M.gguf + BaiHu-v2.F16-mmproj.gguf


模型能力

  • 中文多轮对话
  • 图像描述与视觉问答
  • 音频内容理解
  • 视频内容理解
  • 工具调用

使用方法

使用 llama.cpp / Ollama 推理

参考仓库中的 Modelfile 创建 Ollama 模型:

ollama create BaiHu-v2 -f Modelfile
ollama run BaiHu-v2

使用 llama.cpp 命令行

./llama-cli \
  -m BaiHu-v2.Q4_K_M.gguf \
  --mmproj BaiHu-v2.F16-mmproj.gguf \
  --image example.jpg \
  -p "请描述这张图片:"

使用 transformers(完整模型)

完整 PyTorch/Safetensors 版本请参考配套仓库。本仓库仅提供 GGUF 量化版本。


模型配置

  • 文本模型: 35 层,隐藏维度 1536,8 头注意力
  • 视觉编码器: 16 层,隐藏维度 768,图像 token 数 280
  • 音频编码器: 12 层,隐藏维度 1024
  • 视频: 支持 32 帧采样,每帧最大 70 个 soft token

训练信息

  • 训练框架: Unsloth
  • Unsloth 版本: 2026.6.8
  • 优化目标: 在保持多模态能力的同时,提升中文指令跟随与对话质量

免责声明

本模型生成的内容可能受训练数据影响。请勿将模型输出作为专业建议(医疗、法律、金融等)使用。模型可能存在幻觉、偏见或不准确信息,请谨慎使用并自行验证。


授权协议

本模型采用 MIT 协议 开源。使用本模型前请仔细阅读并遵守 MIT 许可协议条款。


致谢

Downloads last month
78
GGUF
Model size
5B params
Architecture
gemma4
Hardware compatibility
Log In to add your hardware

4-bit

Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support