Youtu-Parsing: Perception, Structuring and Recognition via High-Parallelism Decoding
Paper
•
2601.20430
•
Published
•
14
這是 Tencent Youtu-Parsing 模型的 GGUF 格式轉換版本,可在 llama.cpp 和相容的推理引擎上運行。
| 量化格式 | 大小 | 品質 | 推薦用途 | 下載 |
|---|---|---|---|---|
| Q4_K_M | ~1.2 GB | ⭐⭐⭐⭐ 良好 | 快速推理、資源受限 | youtu-parsing-Q4_K_M.gguf |
| Q6_K | ~1.6 GB | ⭐⭐⭐⭐⭐ 優秀 | 平衡品質和速度 | youtu-parsing-Q6_K.gguf |
| Q8_0 | ~2.1 GB | ⭐⭐⭐⭐⭐ 接近無損 | 高精度需求 | youtu-parsing-Q8_0.gguf |
| F16 | ~3.9 GB | ⭐⭐⭐⭐⭐ 原始品質 | 最佳品質 | youtu-parsing.gguf |
| mmproj | ~847 MB | - | Vision 必須 | youtu-parsing-mmproj.gguf |
💡 推薦: Q6_K 是品質和速度的最佳平衡,Q8_0 接近無損品質。
| 屬性 | 數值 |
|---|---|
| 原始模型 | tencent/Youtu-Parsing |
| 模型類型 | Vision-Language Model (VLM) |
| 基礎架構 | DeepSeek2 (MLA) |
| 參數量 | ~2.1B (Dense) |
| 上下文長度 | 20,480 tokens |
| 詞表大小 | 182,646 |
| Vision Encoder | SigLip2 |
| Projector | YoutuVL |
lm_head 與 embed_tokens 共享權重# 克隆 llama.cpp
git clone https://github.com/ggml-org/llama.cpp.git
cd llama.cpp
# 編譯 CPU 版本
cmake -B build
cmake --build build -j
# 或使用 Metal (Apple Silicon GPU)
cmake -B build -DGGML_METAL=ON
cmake --build build -j
# 或使用 CUDA (NVIDIA GPU)
cmake -B build -DGGML_CUDA=ON
cmake --build build -j
# 安裝 Hugging Face CLI
pip install huggingface-hub
huggingface-cli login
# 下載推薦的 Q6_K 版本
huggingface-cli download <your-username>/Youtu-Parsing-GGUF youtu-parsing-Q6_K.gguf --local-dir ./models
# 同時下載 Vision 模型
huggingface-cli download <your-username>/Youtu-Parsing-GGUF youtu-parsing-mmproj.gguf --local-dir ./models
# CPU 推理
./llama.cpp/build/bin/llama-cli \
--model youtu-parsing-Q6_K.gguf \
--prompt "請解析以下文件內容:" \
--ctx-size 4096 \
--temp 0.1
# GPU 加速 (Metal/CUDA)
./llama.cpp/build/bin/llama-cli \
--model youtu-parsing-Q6_K.gguf \
--prompt "請解析以下文件內容:" \
--ctx-size 4096 \
--temp 0.1 \
--ngl 999 # 啟用所有 GPU 層
# CPU 推理
./llama.cpp/build/bin/llama-mtmd-cli \
--model youtu-parsing-Q6_K.gguf \
--mmproj youtu-parsing-mmproj.gguf \
--image document.jpg \
--prompt "請解析這份文件,提取所有文字和表格。" \
--ctx-size 4096 \
--temp 0.1
# GPU 加速
./llama.cpp/build/bin/llama-mtmd-cli \
--model youtu-parsing-Q6_K.gguf \
--mmproj youtu-parsing-mmproj.gguf \
--image document.jpg \
--prompt "請解析這份文件,提取所有文字和表格。" \
--ctx-size 4096 \
--temp 0.1 \
--gpu-layers 999
# 編譯 Metal 版本
cmake -B build -DGGML_METAL=ON
cmake --build build -j
# 運行時自動使用 GPU
./build/bin/llama-cli --model model.gguf --ngl 999
# --ngl 999 表示將所有層 offload 到 GPU
# 編譯 CUDA 版本
cmake -B build -DGGML_CUDA=ON
cmake --build build -j
# 運行
./build/bin/llama-cli --model model.gguf --ngl 999
# 編譯 Vulkan 版本
cmake -B build -DGGML_VULKAN=ON
cmake --build build -j
./llama.cpp/build/bin/llama-mtmd-cli \
--model youtu-parsing-Q6_K.gguf \
--mmproj youtu-parsing-mmproj.gguf \
--image receipt.jpg \
--prompt "檢測並識別圖片中的文字,將文本坐標格式化輸出。" \
--ctx-size 2048 \
--ngl 999
./llama.cpp/build/bin/llama-mtmd-cli \
--model youtu-parsing-Q6_K.gguf \
--mmproj youtu-parsing-mmproj.gguf \
--image table.png \
--prompt "把圖中的表格解析為 HTML 格式。" \
--ctx-size 4096 \
--ngl 999
./llama.cpp/build/bin/llama-mtmd-cli \
--model youtu-parsing-Q8_0.gguf \
--mmproj youtu-parsing-mmproj.gguf \
--image formula.png \
--prompt "識別圖片中的公式,用 LaTeX 格式表示。" \
--ctx-size 2048 \
--ngl 999
./llama.cpp/build/bin/llama-mtmd-cli \
--model youtu-parsing-Q6_K.gguf \
--mmproj youtu-parsing-mmproj.gguf \
--image document.pdf \
--prompt "提取文檔圖片中的所有信息,用 markdown 格式表示。表格用 HTML,公式用 LaTeX,按照閱讀順序組織。" \
--ctx-size 8192 \
--ngl 999
| 格式 | 每權重位元 | 檔案大小 | 品質 | 速度 | 推薦 |
|---|---|---|---|---|---|
| F16 | 16 bit | 3.9 GB | ⭐⭐⭐⭐⭐ | 慢 | 研究用途 |
| Q8_0 | 8 bit | 2.1 GB | ⭐⭐⭐⭐⭐ | 快 | 高精度需求 |
| Q6_K | 6 bit | 1.6 GB | ⭐⭐⭐⭐⭐ | 更快 | 推薦 |
| Q5_K_M | 5 bit | 1.4 GB | ⭐⭐⭐⭐ | 更快 | 平衡選擇 |
| Q4_K_M | 4 bit | 1.2 GB | ⭐⭐⭐⭐ | 最快 | 速度優先 |
如果你有原始的 F16 模型,可以自行量化:
# Q8_0 (接近無損)
./llama.cpp/build/bin/llama-quantize \
youtu-parsing.gguf \
youtu-parsing-Q8_0.gguf \
Q8_0
# Q6_K (高品質)
./llama.cpp/build/bin/llama-quantize \
youtu-parsing.gguf \
youtu-parsing-Q6_K.gguf \
Q6_K
# Q4_K_M (快速)
./llama.cpp/build/bin/llama-quantize \
youtu-parsing.gguf \
youtu-parsing-Q4_K_M.gguf \
Q4_K_M
| 量化格式 | CPU 推理 | GPU 推理 |
|---|---|---|
| Q4_K_M | ~2 GB | ~1.5 GB |
| Q6_K | ~2.5 GB | ~2 GB |
| Q8_0 | ~3 GB | ~2.5 GB |
| F16 | ~5 GB | ~4 GB |
解決: 確認編譯時啟用了正確的後端:
# 檢查支持的後端
./llama.cpp/build/bin/llama-cli --list-devices
解決: 使用更小的量化模型或減少上下文長度:
# 使用 Q4_K_M 並減少上下文
--model youtu-parsing-Q4_K_M.gguf --ctx-size 2048
解決: 確保同時載入兩個檔案:
--model youtu-parsing.gguf --mmproj youtu-parsing-mmproj.gguf
本 GGUF 轉換版本遵循與原始模型相同的 Youtu-Parsing License。
原始模型: © 2025 Tencent Youtu Lab
最後更新: 2025-02-02
GGUF 版本: v3
llama.cpp 相容版本: >= b4300 (commit 1239267+)