Spaces:

mcamargo00
/

math-solution-classifier

Paused

mcamargo00 commited on Aug 10

Commit

a8f4e5d

verified ·

1 Parent(s): 62c79c5

Upload app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -367,18 +367,21 @@ def load_model():
         base_phi_model = "microsoft/Phi-4-mini-instruct"
         # T4 does fp16 (not bf16)
-        DTYPE = torch.float16
         quantization_config = BitsAndBytesConfig(
             load_in_4bit=True,
             bnb_4bit_quant_type="nf4",
             bnb_4bit_compute_dtype=DTYPE,
         )
         classifier_backbone_base = AutoModelForCausalLM.from_pretrained(
             base_phi_model,
             quantization_config=quantization_config,
-            device_map={"": 0},          # single-GPU
-            trust_remote_code=False,     # <-- avoid remote LossKwargs import
-            attn_implementation="sdpa",
         )
         classifier_tokenizer = AutoTokenizer.from_pretrained(
@@ -401,7 +404,7 @@ def load_model():
         classifier_model.classifier.load_state_dict(torch.load(classifier_head_path, map_location=device))
         classifier_model.to(device)
-        classifier_model = classifier_model.to(torch.bfloat16)
         classifier_model.eval() # Set model to evaluation mode

         base_phi_model = "microsoft/Phi-4-mini-instruct"
         # T4 does fp16 (not bf16)
+        DTYPE = torch.float32
         quantization_config = BitsAndBytesConfig(
             load_in_4bit=True,
             bnb_4bit_quant_type="nf4",
             bnb_4bit_compute_dtype=DTYPE,
         )
         classifier_backbone_base = AutoModelForCausalLM.from_pretrained(
             base_phi_model,
             quantization_config=quantization_config,
+            device_map={"": 0},
+            trust_remote_code=False,      # keep this if you switched it earlier
+            # safest with eager attention when mixing kernels:
+            attn_implementation="eager",
         )
         classifier_tokenizer = AutoTokenizer.from_pretrained(
         classifier_model.classifier.load_state_dict(torch.load(classifier_head_path, map_location=device))
         classifier_model.to(device)
+        classifier_model = classifier_model.to(device=DEVICE, dtype=torch.float32)
         classifier_model.eval() # Set model to evaluation mode