youtu-parsing-gguf / QUICKSTART.md

wangjazz

Upload 18 files

ac17caf verified 3 months ago

preview code

raw

history blame contribute delete

3.02 kB

快速開始指南

1. 下載模型

其他量化版本

版本	大小	適用場景
`youtu-parsing-Q4_K_M.gguf`	1.2 GB	最快推理，資源受限
`youtu-parsing-Q6_K.gguf`	1.6 GB	推薦，平衡品質和速度
`youtu-parsing-Q8_0.gguf`	2.1 GB	接近無損品質
`youtu-parsing.gguf`	3.9 GB	原始 F16 品質

2. 安裝 llama.cpp

macOS (Apple Silicon with Metal GPU)

git clone https://github.com/ggml-org/llama.cpp.git
cd llama.cpp
cmake -B build -DGGML_METAL=ON
cmake --build build -j

Linux (CPU)

git clone https://github.com/ggml-org/llama.cpp.git
cd llama.cpp
cmake -B build
cmake --build build -j

Linux (NVIDIA GPU with CUDA)

git clone https://github.com/ggml-org/llama.cpp.git
cd llama.cpp
cmake -B build -DGGML_CUDA=ON
cmake --build build -j

3. 測試模型

cd models

# 運行測試腳本
./test_gguf.sh

4. 開始使用

文本推理 (CPU)

./llama.cpp/build/bin/llama-cli \
    --model youtu-parsing-Q6_K.gguf \
    -p "解析以下內容：" \
    -c 4096 \
    -t 8

文本推理 (GPU 加速)

./llama.cpp/build/bin/llama-cli \
    --model youtu-parsing-Q6_K.gguf \
    -p "解析以下內容：" \
    -c 4096 \
    -ngl 999  # 啟用所有 GPU 層

圖像理解 (CPU)

./llama.cpp/build/bin/llama-mtmd-cli \
    --model youtu-parsing-Q6_K.gguf \
    --mmproj youtu-parsing-mmproj.gguf \
    --image doc.jpg \
    -p "提取所有文字和表格" \
    -c 4096

圖像理解 (GPU 加速)

./llama.cpp/build/bin/llama-mtmd-cli \
    --model youtu-parsing-Q6_K.gguf \
    --mmproj youtu-parsing-mmproj.gguf \
    --image doc.jpg \
    -p "提取所有文字和表格" \
    -c 4096 \
    --gpu-layers 999

API 服務器

./llama.cpp/build/bin/llama-server \
    --model youtu-parsing-Q6_K.gguf \
    --mmproj youtu-parsing-mmproj.gguf \
    --port 8080 \
    --ngl 999

# 訪問 http://localhost:8080 使用 Web 界面

常見問題

Q: 需要多少記憶體？

Q4_K_M: ~2 GB RAM
Q6_K: ~2.5 GB RAM
Q8_0: ~3 GB RAM
F16: ~5 GB RAM

Q: 支援 GPU 嗎？

A: 支援！

Apple Silicon: Metal
NVIDIA: CUDA
其他: Vulkan

Q: 哪個量化版本最好？

Q6_K: 推薦，品質和速度平衡
Q8_0: 接近無損，高精度需求
Q4_K_M: 最快，資源受限時使用

Q: 如何量化自己的模型？

./llama.cpp/build/bin/llama-quantize \
    input.gguf output-Q6_K.gguf Q6_K

wangjazz
/

youtu-parsing-gguf

快速開始指南

1. 下載模型

推薦下載 (Q6_K - 品質和速度平衡)

其他量化版本

2. 安裝 llama.cpp

macOS (Apple Silicon with Metal GPU)

Linux (CPU)

Linux (NVIDIA GPU with CUDA)

3. 測試模型

4. 開始使用

文本推理 (CPU)

文本推理 (GPU 加速)

圖像理解 (CPU)

圖像理解 (GPU 加速)

API 服務器

常見問題