webpluging

Paused

ranamhamoud commited on Apr 18, 2024

Commit

c11dcf8

verified ·

1 Parent(s): 55c5ebc

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -30,12 +30,12 @@ if not torch.cuda.is_available():
     DESCRIPTION += "\n<p>Running on CPU 🥶 This demo does not work on CPU.</p>"
 # Model and Tokenizer Configuration
-model_id = "meta-llama/Llama-2-7b-hf"
 bnb_config = BitsAndBytesConfig(
-    load_in_8bit=True,
     bnb_4bit_use_double_quant=False,
-    bnb_8bit_quant_type="nf8",
-    bnb_8bit_compute_dtype=torch.bfloat16
 )
 base_model = AutoModelForCausalLM.from_pretrained(model_id, device_map="auto", quantization_config=bnb_config)
 model = PeftModel.from_pretrained(base_model, "ranamhamoud/storytell")

     DESCRIPTION += "\n<p>Running on CPU 🥶 This demo does not work on CPU.</p>"
 # Model and Tokenizer Configuration
+model_id = "meta-llama/Llama-2-7b-chat"
 bnb_config = BitsAndBytesConfig(
+    load_in_4bit=True,
     bnb_4bit_use_double_quant=False,
+    bnb_4bit_quant_type="nf4",
+    bnb_4bit_compute_dtype=torch.bfloat16
 )
 base_model = AutoModelForCausalLM.from_pretrained(model_id, device_map="auto", quantization_config=bnb_config)
 model = PeftModel.from_pretrained(base_model, "ranamhamoud/storytell")