Cialtion
/

SimpleTool

@@ -1,175 +0,0 @@
-import os
-import torch
-from llmcompressor import oneshot
-from llmcompressor.modifiers.awq import AWQModifier, AWQMapping
-from datasets import Dataset
-# ============================================================
-# 配置区（批量量化，仅需修改此处全局配置，无需逐个调整模型）
-# ============================================================
-ROOT_MODEL_DIR = "./"
-QUANT_SUFFIX = "_awq_w4a16"
-# 校准数据
-CALIB_DATA = [
-    """You are a helpful assistant.
-User: 帮我写一份关于全球气候变化的报告大纲。
-Assistant: 当然，这是一个关于全球气候变化报告的大纲建议：
-I. 引言
-   A. 什么是全球气候变化
-   B. 报告的目的和范围
-II. 气候变化的原因
-   A. 自然原因（太阳活动、火山喷发）
-   B. 人为原因（温室气体排放、土地利用变化）
-"""
-]
-# AWQ 映射表（适配Qwen系列模型）
-LLAMA_MAPPINGS = [
-    AWQMapping(
-        "re:.*input_layernorm",
-        ["re:.*q_proj", "re:.*k_proj", "re:.*v_proj"],
-    ),
-    AWQMapping("re:.*v_proj", ["re:.*o_proj"]),
-    AWQMapping(
-        "re:.*post_attention_layernorm",
-        ["re:.*gate_proj", "re:.*up_proj"],
-    ),
-    AWQMapping(
-        "re:.*up_proj",
-        ["re:.*down_proj"],
-    ),
-]
-# ============================================================
-# 工具函数：获取所有待量化的sft_qwenxxx模型目录
-# ============================================================
-def get_target_model_dirs():
-    """
-    遍历ROOT_MODEL_DIR，筛选出所有sft_qwen开头的目录（待量化模型）
-    排除已经量化过的模型（包含_awq_的目录）
-    """
-    target_dirs = []
-    skipped_dirs = []
-    for item in os.listdir(ROOT_MODEL_DIR):
-        item_path = os.path.abspath(os.path.join(ROOT_MODEL_DIR, item))
-        # 筛选条件：是目录 + 以sft_qwen开头
-        if os.path.isdir(item_path) and item.startswith("sft_qwen"):
-            # 【修复】排除已经量化过的模型（包含_awq_的目录）
-            if "_awq_" in item:
-                skipped_dirs.append(item)
-                print(f"[跳过已量化模型] {item}")
-            else:
-                target_dirs.append(item)
-                print(f"[发现待量化模型] {item}")
-    if skipped_dirs:
-        print(f"\n⏭️  跳过 {len(skipped_dirs)} 个已量化模型")
-    if not target_dirs:
-        print("⚠️  未发现任何待量化的sft_qwen模型目录")
-    else:
-        print(f"\n✅ 共发现 {len(target_dirs)} 个待量化模型\n")
-    return target_dirs
-# ============================================================
-# 核心函数：单个模型量化
-# ============================================================
-def quantize_single_model(model_name):
-    """
-    量化单个模型
-    :param model_name: 模型目录名（如sft_qwen3_4b）
-    """
-    MODEL_PATH = os.path.join(ROOT_MODEL_DIR, model_name)
-    QUANT_PATH = os.path.join(ROOT_MODEL_DIR, f"{model_name}{QUANT_SUFFIX}")
-    print(f"\n" + "="*100)
-    print(f"开始量化模型: {model_name}")
-    print(f"模型输入路径: {MODEL_PATH}")
-    print(f"量化输出路径: {QUANT_PATH}")
-    print("="*100 + "\n")
-    if not torch.cuda.is_available():
-        print("❌ 错误：此过程需要GPU支持，无法继续量化")
-        return False
-    try:
-        calib_dataset = Dataset.from_dict({"text": CALIB_DATA})
-    except Exception as e:
-        print(f"❌ 构建校准数据集失败，错误：{e}")
-        return False
-    # 每次量化创建全新的AWQModifier实例
-    recipe = [
-        AWQModifier(
-            scheme="W4A16_ASYM",
-            mappings=LLAMA_MAPPINGS,
-            ignore=["lm_head"],
-            targets=["Linear"]
-        ),
-    ]
-    try:
-        print("[步骤 1/2] 正在执行AWQ W4A16 oneshot量化...")
-        print("   此过程会进行权重缩放和低比特量化，耗时较长，请耐心等待...")
-        # 【修复】移除不支持的 tokenizer_kwargs 参数
-        oneshot(
-            model=MODEL_PATH,
-            dataset=calib_dataset,
-            recipe=recipe,
-            output_dir=QUANT_PATH,
-            num_calibration_samples=len(CALIB_DATA),
-            max_seq_length=4096,
-        )
-        print("\n[步骤 2/2] oneshot量化完成！")
-    except Exception as e:
-        print(f"\n❌ 量化模型 {model_name} 过程中发生错误")
-        print(f"错误详情: {e}")
-        import traceback
-        traceback.print_exc()
-        return False
-    finally:
-        if torch.cuda.is_available():
-            torch.cuda.empty_cache()
-            torch.cuda.synchronize()
-    print("\n" + "="*80)
-    print(f"🎉 模型 {model_name} 量化成功！")
-    print(f"4-bit AWQ模型已保存到: {QUANT_PATH}")
-    print("="*80 + "\n")
-    return True
-# ============================================================
-# 主函数：批量执行所��模型量化
-# ============================================================
-def run_batch_quantization():
-    print("🚀 启动Qwen系列模型批量W4A16量化任务")
-    print(f"工作目录: {os.path.abspath(ROOT_MODEL_DIR)}\n")
-    target_models = get_target_model_dirs()
-    if not target_models:
-        return
-    success_count = 0
-    fail_count = 0
-    for idx, model_name in enumerate(target_models, 1):
-        print(f"\n========== 批量量化 {idx}/{len(target_models)} ==========")
-        if quantize_single_model(model_name):
-            success_count += 1
-        else:
-            fail_count += 1
-    print("\n" + "="*100)
-    print("📊 批量量化任务全部结束")
-    print(f"✅ 成功量化：{success_count} 个模型")
-    print(f"❌ 量化失败：{fail_count} 个模型")
-    print("="*100)
-if __name__ == "__main__":
-    run_batch_quantization()