Spaces:

Slaiwala
/

Alpha_deploy

Paused

Slaiwala commited on Sep 29, 2025

Commit

1fbb928

verified ·

1 Parent(s): 63e871e

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -5,7 +5,12 @@ import os, re, json, time, sys, csv, uuid, datetime
 from typing import List, Dict, Any, Optional
 from functools import lru_cache
 from xml.etree import ElementTree as ET
-from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig
 import numpy as np
 import requests
@@ -200,7 +205,7 @@ if ADAPTER_REPO:
 dlog("LLM", f"Loading base model: {BASE_MODEL}")
 tokenizer_lm = AutoTokenizer.from_pretrained(BASE_MODEL, use_fast=False)
-if QUANTIZE in {"8bit", "4bit"}:
     bnb_config = BitsAndBytesConfig(
         load_in_8bit=(QUANTIZE == "8bit"),
         load_in_4bit=(QUANTIZE == "4bit"),
@@ -214,6 +219,7 @@ if QUANTIZE in {"8bit", "4bit"}:
         quantization_config=bnb_config,
     )
 else:
     base_model = AutoModelForCausalLM.from_pretrained(
         BASE_MODEL,
         torch_dtype=dtype,
@@ -221,6 +227,7 @@ else:
     )
 dlog("LLM", f"Loading LoRA adapter from: {ADAPTER_PATH}")
 model_lm = PeftModel.from_pretrained(base_model, ADAPTER_PATH)
 model_lm.eval()

 from typing import List, Dict, Any, Optional
 from functools import lru_cache
 from xml.etree import ElementTree as ET
+from transformers import AutoTokenizer, AutoModelForCausalLM
+try:
+    from transformers import BitsAndBytesConfig
+except ImportError:
+    BitsAndBytesConfig = None
 import numpy as np
 import requests
 dlog("LLM", f"Loading base model: {BASE_MODEL}")
 tokenizer_lm = AutoTokenizer.from_pretrained(BASE_MODEL, use_fast=False)
+if QUANTIZE in {"8bit", "4bit"} and BitsAndBytesConfig is not None:
     bnb_config = BitsAndBytesConfig(
         load_in_8bit=(QUANTIZE == "8bit"),
         load_in_4bit=(QUANTIZE == "4bit"),
         quantization_config=bnb_config,
     )
 else:
+    # Fallback: run in fp16 without bitsandbytes
     base_model = AutoModelForCausalLM.from_pretrained(
         BASE_MODEL,
         torch_dtype=dtype,
     )
 dlog("LLM", f"Loading LoRA adapter from: {ADAPTER_PATH}")
 model_lm = PeftModel.from_pretrained(base_model, ADAPTER_PATH)
 model_lm.eval()