File size: 4,550 Bytes

55271ca

#!/bin/bash

# ============================================================
# llama.cpp GGUF 批量量化脚本
# 用途：将F16 GGUF模型量化为Ollama主流格式
# ============================================================

# 配置区
# 配置区
LLAMA_CPP_DIR="/inspire/hdd/global_user/shixiaoxin-253107030017/sxx/llama.cpp"
QUANTIZE_BIN="${LLAMA_CPP_DIR}/build/bin/llama-quantize"
INPUT_DIR="./gguf_models"
OUTPUT_DIR="./gguf_quantized"

export LD_LIBRARY_PATH="${LLAMA_CPP_DIR}/build/bin:${LD_LIBRARY_PATH}"

# Ollama主流量化格式（按推荐程度排序）
# Q4_K_M: 最流行，平衡质量与大小（推荐）
# Q5_K_M: 质量更好，文件稍大
# Q8_0:   高质量，文件较大
# Q4_0:   基础4bit，兼容性好
# Q3_K_M: 更小文件，质量损失较大
QUANT_TYPES=("Q4_K_M" "Q5_K_M" "Q8_0")

# ============================================================
# 检查环境
# ============================================================
echo "🔧 检查环境..."

# 检查量化工具是否存在
if [ ! -f "$QUANTIZE_BIN" ]; then
    echo "❌ 错误：找不到量化工具 $QUANTIZE_BIN"
    echo "请先编译llama.cpp："
    echo "  cd $LLAMA_CPP_DIR"
    echo "  mkdir -p build && cd build"
    echo "  cmake .. -DGGML_CUDA=ON"
    echo "  make -j$(nproc)"
    exit 1
fi

# 检查输入目录
if [ ! -d "$INPUT_DIR" ]; then
    echo "❌ 错误：输入目录不存在 $INPUT_DIR"
    echo "请先运行convert_hf_to_gguf.py转换模型"
    exit 1
fi

# 创建输出目录
mkdir -p "$OUTPUT_DIR"

echo "✅ 环境检查通过"
echo ""

# ============================================================
# 获取待量化模型列表
# ============================================================
echo "📂 扫描待量化模型..."

MODELS=($(find "$INPUT_DIR" -maxdepth 1 -name "*.gguf" -type f))

if [ ${#MODELS[@]} -eq 0 ]; then
    echo "❌ 未找到任何.gguf文件在 $INPUT_DIR"
    exit 1
fi

echo "✅ 找到 ${#MODELS[@]} 个模型待量化"
for m in "${MODELS[@]}"; do
    echo "   - $(basename "$m")"
done
echo ""

# ============================================================
# 批量量化
# ============================================================
echo "🚀 开始批量量化..."
echo "量化格式: ${QUANT_TYPES[*]}"
echo ""

TOTAL=$((${#MODELS[@]} * ${#QUANT_TYPES[@]}))
CURRENT=0
SUCCESS=0
FAILED=0

for MODEL_PATH in "${MODELS[@]}"; do
    MODEL_NAME=$(basename "$MODEL_PATH" .gguf)
    
    for QTYPE in "${QUANT_TYPES[@]}"; do
        CURRENT=$((CURRENT + 1))
        OUTPUT_FILE="${OUTPUT_DIR}/${MODEL_NAME}-${QTYPE}.gguf"
        
        echo "=============================================="
        echo "[$CURRENT/$TOTAL] 量化: ${MODEL_NAME} -> ${QTYPE}"
        echo "输入: $MODEL_PATH"
        echo "输出: $OUTPUT_FILE"
        echo "=============================================="
        
        # 跳过已存在的文件
        if [ -f "$OUTPUT_FILE" ]; then
            echo "⏭️  文件已存在，跳过"
            SUCCESS=$((SUCCESS + 1))
            continue
        fi
        
        # 执行量化
        "$QUANTIZE_BIN" "$MODEL_PATH" "$OUTPUT_FILE" "$QTYPE"
        
        if [ $? -eq 0 ]; then
            # 显示文件大小
            SIZE=$(du -h "$OUTPUT_FILE" | cut -f1)
            echo "✅ 成功！文件大小: $SIZE"
            SUCCESS=$((SUCCESS + 1))
        else
            echo "❌ 量化失败"
            FAILED=$((FAILED + 1))
        fi
        echo ""
    done
done

# ============================================================
# 汇总报告
# ============================================================
echo ""
echo "=============================================="
echo "📊 批量量化完成"
echo "=============================================="
echo "✅ 成功: $SUCCESS"
echo "❌ 失败: $FAILED"
echo ""
echo "输出目录: $OUTPUT_DIR"
echo ""

# 列出所有生成的文件
echo "生成的模型文件："
ls -lh "$OUTPUT_DIR"/*.gguf 2>/dev/null | awk '{print "  " $9 " (" $5 ")"}'

echo ""
echo "=============================================="
echo "📦 Ollama发布指南"
echo "=============================================="
echo "1. 创建Modelfile："
echo '   FROM ./your_model-Q4_K_M.gguf'
echo '   TEMPLATE """{{ .Prompt }}"""'
echo '   PARAMETER temperature 0.7'
echo ""
echo "2. 创建本地模型："
echo "   ollama create your-model-name -f Modelfile"
echo ""
echo "3. 推送到Ollama Hub："
echo "   ollama push username/model-name"
echo "=============================================="