Spaces:

zhman
/

llama-math-solver

Sleeping

zhman commited on Jan 7

Commit

7afc078

1 Parent(s): 100fb2e

Add 8-bit quantization for faster inference

Files changed (1) hide show

app.py CHANGED Viewed

@@ -4,18 +4,24 @@ HuggingFace Spaces 推理应用
 """
 import gradio as gr
-from transformers import AutoModelForCausalLM, AutoTokenizer
 import torch
 # 模型配置
 MODEL_NAME = "zhman/llama-SFT-GRPO"
 # 加载模型和分词器
 print("🔄 加载模型...")
 tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
 model = AutoModelForCausalLM.from_pretrained(
     MODEL_NAME,
-    torch_dtype=torch.bfloat16,
     device_map="auto"
 )
 print("✅ 模型加载完成！")

 """
 import gradio as gr
+from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig
 import torch
 # 模型配置
 MODEL_NAME = "zhman/llama-SFT-GRPO"
+# 配置 8-bit 量化以提升速度和减少内存占用
+quantization_config = BitsAndBytesConfig(
+    load_in_8bit=True,
+    llm_int8_threshold=6.0
+)
 # 加载模型和分词器
 print("🔄 加载模型...")
 tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
 model = AutoModelForCausalLM.from_pretrained(
     MODEL_NAME,
+    quantization_config=quantization_config,  # 使用 8-bit 量化
     device_map="auto"
 )
 print("✅ 模型加载完成！")