YAML Metadata Warning: empty or missing yaml metadata in repo card (https://huggingface.co/docs/hub/model-cards#model-card-metadata)

Youtu-Parsing GGUF

Model Architecture Vision GGUF

這是 Tencent Youtu-Parsing 模型的 GGUF 格式轉換版本,可在 llama.cpp 和相容的推理引擎上運行。

📦 模型下載

量化格式 大小 品質 推薦用途 下載
Q4_K_M ~1.2 GB ⭐⭐⭐⭐ 良好 快速推理、資源受限 youtu-parsing-Q4_K_M.gguf
Q6_K ~1.6 GB ⭐⭐⭐⭐⭐ 優秀 平衡品質和速度 youtu-parsing-Q6_K.gguf
Q8_0 ~2.1 GB ⭐⭐⭐⭐⭐ 接近無損 高精度需求 youtu-parsing-Q8_0.gguf
F16 ~3.9 GB ⭐⭐⭐⭐⭐ 原始品質 最佳品質 youtu-parsing.gguf
mmproj ~847 MB - Vision 必須 youtu-parsing-mmproj.gguf

💡 推薦: Q6_K 是品質和速度的最佳平衡,Q8_0 接近無損品質。

📋 模型資訊

屬性 數值
原始模型 tencent/Youtu-Parsing
模型類型 Vision-Language Model (VLM)
基礎架構 DeepSeek2 (MLA)
參數量 ~2.1B (Dense)
上下文長度 20,480 tokens
詞表大小 182,646
Vision Encoder SigLip2
Projector YoutuVL

架構特點

  • MLA (Multi-Latent Attention): 使用壓縮的 Key-Value 快取,記憶體效率更高
  • Dense FFN: 所有 32 層均使用 Dense FFN(非 MoE)
  • Tied Embeddings: lm_headembed_tokens 共享權重
  • Window Attention: Vision Encoder 使用 Window Attention + Full Attention 混合

🚀 快速開始

1. 安裝 llama.cpp

# 克隆 llama.cpp
git clone https://github.com/ggml-org/llama.cpp.git
cd llama.cpp

# 編譯 CPU 版本
cmake -B build
cmake --build build -j

# 或使用 Metal (Apple Silicon GPU)
cmake -B build -DGGML_METAL=ON
cmake --build build -j

# 或使用 CUDA (NVIDIA GPU)
cmake -B build -DGGML_CUDA=ON
cmake --build build -j

2. 下載模型

# 安裝 Hugging Face CLI
pip install huggingface-hub
huggingface-cli login

# 下載推薦的 Q6_K 版本
huggingface-cli download <your-username>/Youtu-Parsing-GGUF youtu-parsing-Q6_K.gguf --local-dir ./models

# 同時下載 Vision 模型
huggingface-cli download <your-username>/Youtu-Parsing-GGUF youtu-parsing-mmproj.gguf --local-dir ./models

3. 純文本推理 (LLM only)

# CPU 推理
./llama.cpp/build/bin/llama-cli \
    --model youtu-parsing-Q6_K.gguf \
    --prompt "請解析以下文件內容:" \
    --ctx-size 4096 \
    --temp 0.1

# GPU 加速 (Metal/CUDA)
./llama.cpp/build/bin/llama-cli \
    --model youtu-parsing-Q6_K.gguf \
    --prompt "請解析以下文件內容:" \
    --ctx-size 4096 \
    --temp 0.1 \
    --ngl 999  # 啟用所有 GPU 層

4. 圖像理解推理 (Vision-Language)

# CPU 推理
./llama.cpp/build/bin/llama-mtmd-cli \
    --model youtu-parsing-Q6_K.gguf \
    --mmproj youtu-parsing-mmproj.gguf \
    --image document.jpg \
    --prompt "請解析這份文件,提取所有文字和表格。" \
    --ctx-size 4096 \
    --temp 0.1

# GPU 加速
./llama.cpp/build/bin/llama-mtmd-cli \
    --model youtu-parsing-Q6_K.gguf \
    --mmproj youtu-parsing-mmproj.gguf \
    --image document.jpg \
    --prompt "請解析這份文件,提取所有文字和表格。" \
    --ctx-size 4096 \
    --temp 0.1 \
    --gpu-layers 999

⚡ GPU 加速指南

Apple Silicon (Metal)

# 編譯 Metal 版本
cmake -B build -DGGML_METAL=ON
cmake --build build -j

# 運行時自動使用 GPU
./build/bin/llama-cli --model model.gguf --ngl 999

# --ngl 999 表示將所有層 offload 到 GPU

NVIDIA GPU (CUDA)

# 編譯 CUDA 版本
cmake -B build -DGGML_CUDA=ON
cmake --build build -j

# 運行
./build/bin/llama-cli --model model.gguf --ngl 999

Vulkan (跨平台)

# 編譯 Vulkan 版本
cmake -B build -DGGML_VULKAN=ON
cmake --build build -j

📝 使用範例

OCR 文字識別

./llama.cpp/build/bin/llama-mtmd-cli \
    --model youtu-parsing-Q6_K.gguf \
    --mmproj youtu-parsing-mmproj.gguf \
    --image receipt.jpg \
    --prompt "檢測並識別圖片中的文字,將文本坐標格式化輸出。" \
    --ctx-size 2048 \
    --ngl 999

表格解析

./llama.cpp/build/bin/llama-mtmd-cli \
    --model youtu-parsing-Q6_K.gguf \
    --mmproj youtu-parsing-mmproj.gguf \
    --image table.png \
    --prompt "把圖中的表格解析為 HTML 格式。" \
    --ctx-size 4096 \
    --ngl 999

公式識別

./llama.cpp/build/bin/llama-mtmd-cli \
    --model youtu-parsing-Q8_0.gguf \
    --mmproj youtu-parsing-mmproj.gguf \
    --image formula.png \
    --prompt "識別圖片中的公式,用 LaTeX 格式表示。" \
    --ctx-size 2048 \
    --ngl 999

文檔解析

./llama.cpp/build/bin/llama-mtmd-cli \
    --model youtu-parsing-Q6_K.gguf \
    --mmproj youtu-parsing-mmproj.gguf \
    --image document.pdf \
    --prompt "提取文檔圖片中的所有信息,用 markdown 格式表示。表格用 HTML,公式用 LaTeX,按照閱讀順序組織。" \
    --ctx-size 8192 \
    --ngl 999

🔧 量化說明

量化類型對比

格式 每權重位元 檔案大小 品質 速度 推薦
F16 16 bit 3.9 GB ⭐⭐⭐⭐⭐ 研究用途
Q8_0 8 bit 2.1 GB ⭐⭐⭐⭐⭐ 高精度需求
Q6_K 6 bit 1.6 GB ⭐⭐⭐⭐⭐ 更快 推薦
Q5_K_M 5 bit 1.4 GB ⭐⭐⭐⭐ 更快 平衡選擇
Q4_K_M 4 bit 1.2 GB ⭐⭐⭐⭐ 最快 速度優先

如何自行量化

如果你有原始的 F16 模型,可以自行量化:

# Q8_0 (接近無損)
./llama.cpp/build/bin/llama-quantize \
    youtu-parsing.gguf \
    youtu-parsing-Q8_0.gguf \
    Q8_0

# Q6_K (高品質)
./llama.cpp/build/bin/llama-quantize \
    youtu-parsing.gguf \
    youtu-parsing-Q6_K.gguf \
    Q6_K

# Q4_K_M (快速)
./llama.cpp/build/bin/llama-quantize \
    youtu-parsing.gguf \
    youtu-parsing-Q4_K_M.gguf \
    Q4_K_M

💻 硬體需求

記憶體需求

量化格式 CPU 推理 GPU 推理
Q4_K_M ~2 GB ~1.5 GB
Q6_K ~2.5 GB ~2 GB
Q8_0 ~3 GB ~2.5 GB
F16 ~5 GB ~4 GB

建議配置

  • 最低配置: 4GB RAM,運行 Q4_K_M
  • 推薦配置: 8GB RAM + Apple Silicon / NVIDIA GPU,運行 Q6_K
  • 最佳配置: 16GB RAM + 高端 GPU,運行 Q8_0 或 F16

🐛 故障排除

問題: GPU 加速無效

解決: 確認編譯時啟用了正確的後端:

# 檢查支持的後端
./llama.cpp/build/bin/llama-cli --list-devices

問題: 記憶體不足 (OOM)

解決: 使用更小的量化模型或減少上下文長度:

# 使用 Q4_K_M 並減少上下文
--model youtu-parsing-Q4_K_M.gguf --ctx-size 2048

問題: Vision 功能無法使用

解決: 確保同時載入兩個檔案:

--model youtu-parsing.gguf --mmproj youtu-parsing-mmproj.gguf

📚 相關資源

⚖️ 許可證

本 GGUF 轉換版本遵循與原始模型相同的 Youtu-Parsing License

原始模型: © 2025 Tencent Youtu Lab

🙏 致謝


最後更新: 2025-02-02
GGUF 版本: v3
llama.cpp 相容版本: >= b4300 (commit 1239267+)

Downloads last month
19
GGUF
Hardware compatibility
Log In to add your hardware
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Papers for wangjazz/youtu-parsing-gguf