Spaces:

limitless235
/

llm-pushback

Sleeping

App Files Files Community

Sahil Seemant commited on Mar 9

Commit

cb2afbd

1 Parent(s): 6b16d45

Fix VLM architecture incompatibility (Ministral/Qwen)

Browse files

Files changed (2) hide show

chat_gui.py +17 -4
requirements.txt +4 -1

chat_gui.py CHANGED Viewed

@@ -14,7 +14,13 @@ except (ImportError, ModuleNotFoundError):
     HAS_MLX = False
     try:
         import torch
-        from transformers import AutoModelForCausalLM, AutoTokenizer, TextIteratorStreamer
         from peft import PeftModel
     except ImportError:
         st.error("Missing cloud dependencies. Please check requirements.txt")
@@ -283,14 +289,21 @@ if st.session_state.messages and st.session_state.messages[-1]["role"] == "user"
                 else:
                     # Cloud Fallback (Transformers)
                     hf_token = os.getenv("HF_TOKEN")
-                    tokenizer = AutoTokenizer.from_pretrained(conf["path"], token=hf_token)
                     # Use 4-bit quantization if on low-memory cloud
-                    model = AutoModelForCausalLM.from_pretrained(
                         conf["path"],
                         torch_dtype=torch.float16,
                         device_map="auto",
                         load_in_4bit=True,
-                        token=hf_token
                     )
                     if conf["adapter"]:
                         model = PeftModel.from_pretrained(model, conf["adapter"], token=hf_token)

     HAS_MLX = False
     try:
         import torch
+        from transformers import (
+            AutoModelForCausalLM,
+            AutoModelForImageTextToText,
+            AutoTokenizer,
+            AutoProcessor,
+            TextIteratorStreamer
+        )
         from peft import PeftModel
     except ImportError:
         st.error("Missing cloud dependencies. Please check requirements.txt")
                 else:
                     # Cloud Fallback (Transformers)
                     hf_token = os.getenv("HF_TOKEN")
+                    # Both Ministral-3 and Qwen-3.5 are Vision-Language Models (VLM)
+                    model_class = AutoModelForImageTextToText
+                    processor_class = AutoProcessor
+                    st.info(f"Loading {st.session_state.current_model} via Transformers (VLM)...")
+                    tokenizer = processor_class.from_pretrained(conf["path"], token=hf_token, trust_remote_code=True)
                     # Use 4-bit quantization if on low-memory cloud
+                    model = model_class.from_pretrained(
                         conf["path"],
                         torch_dtype=torch.float16,
                         device_map="auto",
                         load_in_4bit=True,
+                        token=hf_token,
+                        trust_remote_code=True
                     )
                     if conf["adapter"]:
                         model = PeftModel.from_pretrained(model, conf["adapter"], token=hf_token)

requirements.txt CHANGED Viewed

@@ -11,8 +11,11 @@ altair==5.3.0
 # Inference (MLX for local Mac, Transformers for Cloud/Linux)
 mlx; platform_system == "Darwin"
 mlx-vlm; platform_system == "Darwin"
-transformers
 torch
 peft
 accelerate
 bitsandbytes

 # Inference (MLX for local Mac, Transformers for Cloud/Linux)
 mlx; platform_system == "Darwin"
 mlx-vlm; platform_system == "Darwin"
+transformers==4.48.2
 torch
 peft
 accelerate
 bitsandbytes
+sentencepiece
+protobuf
+vllm; platform_system == "Linux"