YAML Metadata Warning:empty or missing yaml metadata in repo card

Check out the documentation for more information.

Youtu-Parsing GGUF

這是 Tencent Youtu-Parsing 模型的 GGUF 格式轉換版本，可在 llama.cpp 和相容的推理引擎上運行。

📦 模型下載

量化格式	大小	品質	推薦用途	下載
Q4_K_M	~1.2 GB	⭐⭐⭐⭐ 良好	快速推理、資源受限	`youtu-parsing-Q4_K_M.gguf`
Q6_K	~1.6 GB	⭐⭐⭐⭐⭐ 優秀	平衡品質和速度	`youtu-parsing-Q6_K.gguf`
Q8_0	~2.1 GB	⭐⭐⭐⭐⭐ 接近無損	高精度需求	`youtu-parsing-Q8_0.gguf`
F16	~3.9 GB	⭐⭐⭐⭐⭐ 原始品質	最佳品質	`youtu-parsing.gguf`
mmproj	~847 MB	-	Vision 必須	`youtu-parsing-mmproj.gguf`

💡 推薦: Q6_K 是品質和速度的最佳平衡，Q8_0 接近無損品質。

📋 模型資訊

屬性	數值
原始模型	tencent/Youtu-Parsing
模型類型	Vision-Language Model (VLM)
基礎架構	DeepSeek2 (MLA)
參數量	~2.1B (Dense)
上下文長度	20,480 tokens
詞表大小	182,646
Vision Encoder	SigLip2
Projector	YoutuVL

架構特點

MLA (Multi-Latent Attention): 使用壓縮的 Key-Value 快取，記憶體效率更高
Dense FFN: 所有 32 層均使用 Dense FFN（非 MoE）
Tied Embeddings: lm_head 與 embed_tokens 共享權重
Window Attention: Vision Encoder 使用 Window Attention + Full Attention 混合

🚀 快速開始

1. 安裝 llama.cpp

# 克隆 llama.cpp
git clone https://github.com/ggml-org/llama.cpp.git
cd llama.cpp

# 編譯 CPU 版本
cmake -B build
cmake --build build -j

# 或使用 Metal (Apple Silicon GPU)
cmake -B build -DGGML_METAL=ON
cmake --build build -j

# 或使用 CUDA (NVIDIA GPU)
cmake -B build -DGGML_CUDA=ON
cmake --build build -j

2. 下載模型

# 安裝 Hugging Face CLI
pip install huggingface-hub
huggingface-cli login

# 下載推薦的 Q6_K 版本
huggingface-cli download <your-username>/Youtu-Parsing-GGUF youtu-parsing-Q6_K.gguf --local-dir ./models

# 同時下載 Vision 模型
huggingface-cli download <your-username>/Youtu-Parsing-GGUF youtu-parsing-mmproj.gguf --local-dir ./models

3. 純文本推理 (LLM only)

# CPU 推理
./llama.cpp/build/bin/llama-cli \
    --model youtu-parsing-Q6_K.gguf \
    --prompt "請解析以下文件內容：" \
    --ctx-size 4096 \
    --temp 0.1

# GPU 加速 (Metal/CUDA)
./llama.cpp/build/bin/llama-cli \
    --model youtu-parsing-Q6_K.gguf \
    --prompt "請解析以下文件內容：" \
    --ctx-size 4096 \
    --temp 0.1 \
    --ngl 999  # 啟用所有 GPU 層

4. 圖像理解推理 (Vision-Language)

# CPU 推理
./llama.cpp/build/bin/llama-mtmd-cli \
    --model youtu-parsing-Q6_K.gguf \
    --mmproj youtu-parsing-mmproj.gguf \
    --image document.jpg \
    --prompt "請解析這份文件，提取所有文字和表格。" \
    --ctx-size 4096 \
    --temp 0.1

# GPU 加速
./llama.cpp/build/bin/llama-mtmd-cli \
    --model youtu-parsing-Q6_K.gguf \
    --mmproj youtu-parsing-mmproj.gguf \
    --image document.jpg \
    --prompt "請解析這份文件，提取所有文字和表格。" \
    --ctx-size 4096 \
    --temp 0.1 \
    --gpu-layers 999

⚡ GPU 加速指南

Apple Silicon (Metal)

# 編譯 Metal 版本
cmake -B build -DGGML_METAL=ON
cmake --build build -j

# 運行時自動使用 GPU
./build/bin/llama-cli --model model.gguf --ngl 999

# --ngl 999 表示將所有層 offload 到 GPU

NVIDIA GPU (CUDA)

# 編譯 CUDA 版本
cmake -B build -DGGML_CUDA=ON
cmake --build build -j

# 運行
./build/bin/llama-cli --model model.gguf --ngl 999

Vulkan (跨平台)

# 編譯 Vulkan 版本
cmake -B build -DGGML_VULKAN=ON
cmake --build build -j

📝 使用範例

OCR 文字識別

./llama.cpp/build/bin/llama-mtmd-cli \
    --model youtu-parsing-Q6_K.gguf \
    --mmproj youtu-parsing-mmproj.gguf \
    --image receipt.jpg \
    --prompt "檢測並識別圖片中的文字，將文本坐標格式化輸出。" \
    --ctx-size 2048 \
    --ngl 999

表格解析

./llama.cpp/build/bin/llama-mtmd-cli \
    --model youtu-parsing-Q6_K.gguf \
    --mmproj youtu-parsing-mmproj.gguf \
    --image table.png \
    --prompt "把圖中的表格解析為 HTML 格式。" \
    --ctx-size 4096 \
    --ngl 999

公式識別

./llama.cpp/build/bin/llama-mtmd-cli \
    --model youtu-parsing-Q8_0.gguf \
    --mmproj youtu-parsing-mmproj.gguf \
    --image formula.png \
    --prompt "識別圖片中的公式，用 LaTeX 格式表示。" \
    --ctx-size 2048 \
    --ngl 999

文檔解析

./llama.cpp/build/bin/llama-mtmd-cli \
    --model youtu-parsing-Q6_K.gguf \
    --mmproj youtu-parsing-mmproj.gguf \
    --image document.pdf \
    --prompt "提取文檔圖片中的所有信息，用 markdown 格式表示。表格用 HTML，公式用 LaTeX，按照閱讀順序組織。" \
    --ctx-size 8192 \
    --ngl 999

🔧 量化說明

量化類型對比

格式	每權重位元	檔案大小	品質	速度	推薦
F16	16 bit	3.9 GB	⭐⭐⭐⭐⭐	慢	研究用途
Q8_0	8 bit	2.1 GB	⭐⭐⭐⭐⭐	快	高精度需求
Q6_K	6 bit	1.6 GB	⭐⭐⭐⭐⭐	更快	推薦
Q5_K_M	5 bit	1.4 GB	⭐⭐⭐⭐	更快	平衡選擇
Q4_K_M	4 bit	1.2 GB	⭐⭐⭐⭐	最快	速度優先

如何自行量化

如果你有原始的 F16 模型，可以自行量化：

# Q8_0 (接近無損)
./llama.cpp/build/bin/llama-quantize \
    youtu-parsing.gguf \
    youtu-parsing-Q8_0.gguf \
    Q8_0

# Q6_K (高品質)
./llama.cpp/build/bin/llama-quantize \
    youtu-parsing.gguf \
    youtu-parsing-Q6_K.gguf \
    Q6_K

# Q4_K_M (快速)
./llama.cpp/build/bin/llama-quantize \
    youtu-parsing.gguf \
    youtu-parsing-Q4_K_M.gguf \
    Q4_K_M

💻 硬體需求

記憶體需求

量化格式	CPU 推理	GPU 推理
Q4_K_M	~2 GB	~1.5 GB
Q6_K	~2.5 GB	~2 GB
Q8_0	~3 GB	~2.5 GB
F16	~5 GB	~4 GB

建議配置

最低配置: 4GB RAM，運行 Q4_K_M
推薦配置: 8GB RAM + Apple Silicon / NVIDIA GPU，運行 Q6_K
最佳配置: 16GB RAM + 高端 GPU，運行 Q8_0 或 F16

🐛 故障排除

問題: GPU 加速無效

解決: 確認編譯時啟用了正確的後端：

# 檢查支持的後端
./llama.cpp/build/bin/llama-cli --list-devices

問題: 記憶體不足 (OOM)

解決: 使用更小的量化模型或減少上下文長度：

# 使用 Q4_K_M 並減少上下文
--model youtu-parsing-Q4_K_M.gguf --ctx-size 2048

問題: Vision 功能無法使用

解決: 確保同時載入兩個檔案：

--model youtu-parsing.gguf --mmproj youtu-parsing-mmproj.gguf

📚 相關資源

⚖️ 許可證

本 GGUF 轉換版本遵循與原始模型相同的 Youtu-Parsing License。

🙏 致謝

Tencent Youtu Lab 開發了 Youtu-Parsing 模型
llama.cpp 團隊提供了優秀的推理框架
Hugging Face 提供了模型託管平台

最後更新: 2025-02-02
GGUF 版本: v3
llama.cpp 相容版本: >= b4300 (commit 1239267+)

Downloads last month: 5

GGUF

Hardware compatibility

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Papers for wangjazz/youtu-parsing-gguf

Youtu-Parsing: Perception, Structuring and Recognition via High-Parallelism Decoding

Paper • 2601.20430 • Published Jan 28 • 16

DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model

Paper • 2405.04434 • Published May 7, 2024 • 25