Spaces:

DheepLearning
/

ITR

Sleeping

Deepan13 commited on May 7, 2025

Commit

ea68e91

1 Parent(s): d4417c8

Add CodeLlama demo app quantized

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,11 +1,14 @@
 import gradio as gr
-from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline
-model_id = "codellama/CodeLlama-7b-hf"
 tokenizer = AutoTokenizer.from_pretrained(model_id)
 model = AutoModelForCausalLM.from_pretrained(
     model_id,
     device_map="auto"
 )

 import gradio as gr
+from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline, BitsAndBytesConfig
+model_id = "TheBloke/CodeLlama-7B-GPTQ"  # Example 4-bit quantized model
+bnb_config = BitsAndBytesConfig(load_in_4bit=True, device_map="auto")
 tokenizer = AutoTokenizer.from_pretrained(model_id)
 model = AutoModelForCausalLM.from_pretrained(
     model_id,
+    quantization_config=bnb_config,
     device_map="auto"
 )