Spaces:

mistral-hackaton-2026
/

ethos

Running

Lior-0618 commited on Mar 1

Commit

64b796f

1 Parent(s): b7f8db8

fix: use bfloat16 on CPU to halve memory usage (~6 GB vs ~12 GB)

float32 exceeded HF Spaces 16 GiB limit. bfloat16 supported on
PyTorch CPU since 1.12.

Files changed (1) hide show

api/main.py CHANGED Viewed

@@ -37,12 +37,13 @@ def _init_model() -> None:
     from transformers import VoxtralForConditionalGeneration, AutoProcessor
     from peft import PeftModel
     if torch.cuda.is_available():
-        _model_dtype  = torch.bfloat16
-        device_map    = "auto"
     else:
-        _model_dtype  = torch.float32
-        device_map    = "cpu"
     print(f"[voxtral] Loading processor {MODEL_ID} ...")
     _processor = AutoProcessor.from_pretrained(MODEL_ID)
@@ -50,7 +51,7 @@ def _init_model() -> None:
     print(f"[voxtral] Loading base model {MODEL_ID} (dtype={_model_dtype}) ...")
     base_model = VoxtralForConditionalGeneration.from_pretrained(
         MODEL_ID,
-        torch_dtype=_model_dtype,
         device_map=device_map,
     )

     from transformers import VoxtralForConditionalGeneration, AutoProcessor
     from peft import PeftModel
+    # bfloat16 on both GPU and CPU — halves memory vs float32 (~6 GB vs ~12 GB)
+    # PyTorch CPU supports bfloat16 natively since 1.12
+    _model_dtype = torch.bfloat16
     if torch.cuda.is_available():
+        device_map = "auto"
     else:
+        device_map = "cpu"
     print(f"[voxtral] Loading processor {MODEL_ID} ...")
     _processor = AutoProcessor.from_pretrained(MODEL_ID)
     print(f"[voxtral] Loading base model {MODEL_ID} (dtype={_model_dtype}) ...")
     base_model = VoxtralForConditionalGeneration.from_pretrained(
         MODEL_ID,
+        dtype=_model_dtype,
         device_map=device_map,
     )