BAAI
/

Aquila2-34B

@@ -36,7 +36,15 @@ import torch
 device = torch.device("cuda")
 model_info = "BAAI/Aquila2-34B"
 tokenizer = AutoTokenizer.from_pretrained(model_info, trust_remote_code=True)
-model = AutoModelForCausalLM.from_pretrained(model_info, trust_remote_code=True)
 model.eval()
 model.to(device)
 text = "请给出10个要到北京旅游的理由。"

 device = torch.device("cuda")
 model_info = "BAAI/Aquila2-34B"
 tokenizer = AutoTokenizer.from_pretrained(model_info, trust_remote_code=True)
+quantization_config=BitsAndBytesConfig(
+                        load_in_4bit=True,
+                        bnb_4bit_use_double_quant=True,
+                        bnb_4bit_quant_type="nf4",
+                        bnb_4bit_compute_dtype=torch.bfloat16,
+                    )
+model = AutoModelForCausalLM.from_pretrained(model_info, trust_remote_code=True,
+                                                # quantization_config=quantization_config, # Uncomment this line for 4bit quantization
+                                                )
 model.eval()
 model.to(device)
 text = "请给出10个要到北京旅游的理由。"