youtu-parsing-gguf / QUICKSTART.md
wangjazz's picture
Upload 18 files
ac17caf verified

快速開始指南

1. 下載模型

推薦下載 (Q6_K - 品質和速度平衡)

# 安裝 Hugging Face CLI
pip install huggingface-hub
huggingface-cli login

# 下載 Q6_K 版本 (1.6 GB)
huggingface-cli download <your-username>/Youtu-Parsing-GGUF youtu-parsing-Q6_K.gguf --local-dir ./models

# 同時下載 Vision 模型 (847 MB)
huggingface-cli download <your-username>/Youtu-Parsing-GGUF youtu-parsing-mmproj.gguf --local-dir ./models

其他量化版本

版本 大小 適用場景
youtu-parsing-Q4_K_M.gguf 1.2 GB 最快推理,資源受限
youtu-parsing-Q6_K.gguf 1.6 GB 推薦,平衡品質和速度
youtu-parsing-Q8_0.gguf 2.1 GB 接近無損品質
youtu-parsing.gguf 3.9 GB 原始 F16 品質

2. 安裝 llama.cpp

macOS (Apple Silicon with Metal GPU)

git clone https://github.com/ggml-org/llama.cpp.git
cd llama.cpp
cmake -B build -DGGML_METAL=ON
cmake --build build -j

Linux (CPU)

git clone https://github.com/ggml-org/llama.cpp.git
cd llama.cpp
cmake -B build
cmake --build build -j

Linux (NVIDIA GPU with CUDA)

git clone https://github.com/ggml-org/llama.cpp.git
cd llama.cpp
cmake -B build -DGGML_CUDA=ON
cmake --build build -j

3. 測試模型

cd models

# 運行測試腳本
./test_gguf.sh

4. 開始使用

文本推理 (CPU)

./llama.cpp/build/bin/llama-cli \
    --model youtu-parsing-Q6_K.gguf \
    -p "解析以下內容:" \
    -c 4096 \
    -t 8

文本推理 (GPU 加速)

./llama.cpp/build/bin/llama-cli \
    --model youtu-parsing-Q6_K.gguf \
    -p "解析以下內容:" \
    -c 4096 \
    -ngl 999  # 啟用所有 GPU 層

圖像理解 (CPU)

./llama.cpp/build/bin/llama-mtmd-cli \
    --model youtu-parsing-Q6_K.gguf \
    --mmproj youtu-parsing-mmproj.gguf \
    --image doc.jpg \
    -p "提取所有文字和表格" \
    -c 4096

圖像理解 (GPU 加速)

./llama.cpp/build/bin/llama-mtmd-cli \
    --model youtu-parsing-Q6_K.gguf \
    --mmproj youtu-parsing-mmproj.gguf \
    --image doc.jpg \
    -p "提取所有文字和表格" \
    -c 4096 \
    --gpu-layers 999

API 服務器

./llama.cpp/build/bin/llama-server \
    --model youtu-parsing-Q6_K.gguf \
    --mmproj youtu-parsing-mmproj.gguf \
    --port 8080 \
    --ngl 999

# 訪問 http://localhost:8080 使用 Web 界面

常見問題

Q: 需要多少記憶體?

A:

  • Q4_K_M: ~2 GB RAM
  • Q6_K: ~2.5 GB RAM
  • Q8_0: ~3 GB RAM
  • F16: ~5 GB RAM

Q: 支援 GPU 嗎?

A: 支援!

  • Apple Silicon: Metal
  • NVIDIA: CUDA
  • 其他: Vulkan

Q: 哪個量化版本最好?

A:

  • Q6_K: 推薦,品質和速度平衡
  • Q8_0: 接近無損,高精度需求
  • Q4_K_M: 最快,資源受限時使用

Q: 如何量化自己的模型?

A:

./llama.cpp/build/bin/llama-quantize \
    input.gguf output-Q6_K.gguf Q6_K