Spaces:

Tonic
/

Command-A

Runtime error

Tonic commited on Mar 13, 2025

Commit

9aaad03

unverified ·

1 Parent(s): e463387

add bnb config

Files changed (1) hide show

app.py CHANGED Viewed

@@ -14,9 +14,24 @@ Join us : 🌟TeamTonic🌟 is always making cool demos! Join our active builder
 """
 model_id = "Tonic/c4ai-command-a-03-2025-4bit_fp4"
-tokenizer = AutoTokenizer.from_pretrained(model_id, token=HF_TOKEN)
-model = AutoModelForCausalLM.from_pretrained(model_id, device_map="auto", torch_dtype=torch.bfloat16, token=HF_TOKEN)
 @spaces.GPU
 def generate_response(user_input, max_new_tokens, temperature):

 """
 model_id = "Tonic/c4ai-command-a-03-2025-4bit_fp4"
+# Define quantization config for 4-bit
+quantization_config = BitsAndBytesConfig(
+    load_in_4bit=True,  # Enable 4-bit quantization
+    bnb_4bit_quant_type="fp4",  # Use FP4 quantization
+    bnb_4bit_use_double_quant=True,  # Optional: double quantization for better precision
+    llm_int8_enable_fp32_cpu_offload=True  # Allow CPU offloading for 32-bit modules
+)
+# Load tokenizer and model
+tokenizer = AutoTokenizer.from_pretrained(model_id, token=HF_TOKEN)
+model = AutoModelForCausalLM.from_pretrained(
+    model_id,
+    quantization_config=quantization_config,  # Apply quantization
+    device_map="auto",  # Automatically map to available devices
+    torch_dtype=torch.bfloat16,
+    token=HF_TOKEN
+)
 @spaces.GPU
 def generate_response(user_input, max_new_tokens, temperature):