快速開始指南
1. 下載模型
推薦下載 (Q6_K - 品質和速度平衡)
# 安裝 Hugging Face CLI
pip install huggingface-hub
huggingface-cli login
# 下載 Q6_K 版本 (1.6 GB)
huggingface-cli download <your-username>/Youtu-Parsing-GGUF youtu-parsing-Q6_K.gguf --local-dir ./models
# 同時下載 Vision 模型 (847 MB)
huggingface-cli download <your-username>/Youtu-Parsing-GGUF youtu-parsing-mmproj.gguf --local-dir ./models
其他量化版本
| 版本 | 大小 | 適用場景 |
|---|---|---|
youtu-parsing-Q4_K_M.gguf |
1.2 GB | 最快推理,資源受限 |
youtu-parsing-Q6_K.gguf |
1.6 GB | 推薦,平衡品質和速度 |
youtu-parsing-Q8_0.gguf |
2.1 GB | 接近無損品質 |
youtu-parsing.gguf |
3.9 GB | 原始 F16 品質 |
2. 安裝 llama.cpp
macOS (Apple Silicon with Metal GPU)
git clone https://github.com/ggml-org/llama.cpp.git
cd llama.cpp
cmake -B build -DGGML_METAL=ON
cmake --build build -j
Linux (CPU)
git clone https://github.com/ggml-org/llama.cpp.git
cd llama.cpp
cmake -B build
cmake --build build -j
Linux (NVIDIA GPU with CUDA)
git clone https://github.com/ggml-org/llama.cpp.git
cd llama.cpp
cmake -B build -DGGML_CUDA=ON
cmake --build build -j
3. 測試模型
cd models
# 運行測試腳本
./test_gguf.sh
4. 開始使用
文本推理 (CPU)
./llama.cpp/build/bin/llama-cli \
--model youtu-parsing-Q6_K.gguf \
-p "解析以下內容:" \
-c 4096 \
-t 8
文本推理 (GPU 加速)
./llama.cpp/build/bin/llama-cli \
--model youtu-parsing-Q6_K.gguf \
-p "解析以下內容:" \
-c 4096 \
-ngl 999 # 啟用所有 GPU 層
圖像理解 (CPU)
./llama.cpp/build/bin/llama-mtmd-cli \
--model youtu-parsing-Q6_K.gguf \
--mmproj youtu-parsing-mmproj.gguf \
--image doc.jpg \
-p "提取所有文字和表格" \
-c 4096
圖像理解 (GPU 加速)
./llama.cpp/build/bin/llama-mtmd-cli \
--model youtu-parsing-Q6_K.gguf \
--mmproj youtu-parsing-mmproj.gguf \
--image doc.jpg \
-p "提取所有文字和表格" \
-c 4096 \
--gpu-layers 999
API 服務器
./llama.cpp/build/bin/llama-server \
--model youtu-parsing-Q6_K.gguf \
--mmproj youtu-parsing-mmproj.gguf \
--port 8080 \
--ngl 999
# 訪問 http://localhost:8080 使用 Web 界面
常見問題
Q: 需要多少記憶體?
A:
- Q4_K_M: ~2 GB RAM
- Q6_K: ~2.5 GB RAM
- Q8_0: ~3 GB RAM
- F16: ~5 GB RAM
Q: 支援 GPU 嗎?
A: 支援!
- Apple Silicon: Metal
- NVIDIA: CUDA
- 其他: Vulkan
Q: 哪個量化版本最好?
A:
- Q6_K: 推薦,品質和速度平衡
- Q8_0: 接近無損,高精度需求
- Q4_K_M: 最快,資源受限時使用
Q: 如何量化自己的模型?
A:
./llama.cpp/build/bin/llama-quantize \
input.gguf output-Q6_K.gguf Q6_K