ORLM

Running on Zero

tangzhy commited on Jul 25, 2024

Commit

2f72adf

verified ·

1 Parent(s): 6ff4c1d

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -35,15 +35,14 @@ quantization_config = BitsAndBytesConfig(
 # quantization_config = BitsAndBytesConfig(load_in_8bit=True)
 model_id = "CardinalOperations/ORLM-LLaMA-3-8B"
-tokenizer = AutoTokenizer.from_pretrained(model_id)
 model = AutoModelForCausalLM.from_pretrained(
     model_id,
     device_map="auto",
     torch_dtype=torch.bfloat16,
     attn_implementation="flash_attention_2",
-    # quantization_config=quantization_config,
 )
-model.config.sliding_window = 4096
 model.eval()

 # quantization_config = BitsAndBytesConfig(load_in_8bit=True)
 model_id = "CardinalOperations/ORLM-LLaMA-3-8B"
+tokenizer = AutoTokenizer.from_pretrained(model_id, use_fast=True)
 model = AutoModelForCausalLM.from_pretrained(
     model_id,
     device_map="auto",
     torch_dtype=torch.bfloat16,
     attn_implementation="flash_attention_2",
+    quantization_config=quantization_config,
 )
 model.eval()