Spaces:

prithivMLmods
/

Multimodal-Edge-Node

Running on Zero

App Files Files Community

prithivMLmods commited on 27 days ago

Commit

47078ff

verified ·

1 Parent(s): 459f463

update app

Browse files

Files changed (1) hide show

app.py +149 -97

app.py CHANGED Viewed

@@ -36,14 +36,15 @@ DTYPE = (
     else torch.float16
 )
-QWEN_4B_MODEL_NAME   = "Qwen/Qwen3.5-4B"
-QWEN_2B_MODEL_NAME   = "Qwen/Qwen3.5-2B"
-QWEN_VL_MODEL_NAME   = "Qwen/Qwen3-VL-2B-Instruct"
-LFM_450_MODEL_NAME   = "LiquidAI/LFM2.5-VL-450M"
-LFM_16_MODEL_NAME    = "LiquidAI/LFM2.5-VL-1.6B"
-QWEN_UNREDACTED_NAME = "prithivMLmods/Qwen3.5-2B-Unredacted-MAX"
-QWEN25_VL_3B_NAME    = "Qwen/Qwen2.5-VL-3B-Instruct"
-GEMMA4_E2B_NAME      = "google/gemma-4-E2B-it"
 # ── Qwen3.5-4B ──────────────────────────────────────────
 print(f"Loading Qwen3.5-4B model: {QWEN_4B_MODEL_NAME} on {DEVICE}...")
@@ -72,21 +73,38 @@ except Exception as e:
     qwen_2b_processor = None
 # ── Qwen3-VL-2B-Instruct ────────────────────────────────
-print(f"Loading Qwen3-VL model: {QWEN_VL_MODEL_NAME} on {DEVICE}...")
 try:
-    qwen_vl_model = Qwen3VLForConditionalGeneration.from_pretrained(
-        QWEN_VL_MODEL_NAME,
         trust_remote_code=True,
         torch_dtype=torch.bfloat16,
     ).to(DEVICE).eval()
-    qwen_vl_processor = AutoProcessor.from_pretrained(
-        QWEN_VL_MODEL_NAME, trust_remote_code=True
     )
-    print("Qwen3-VL model loaded successfully.")
 except Exception as e:
-    print(f"Warning: Qwen3-VL model loading failed. Error: {e}")
-    qwen_vl_model = None
-    qwen_vl_processor = None
 # ── LFM2.5-VL-450M ──────────────────────────────────────
 print(f"Loading LFM-450M model: {LFM_450_MODEL_NAME} on {DEVICE}...")
@@ -103,6 +121,23 @@ except Exception as e:
     lfm_450_model = None
     lfm_450_processor = None
 # ── LFM2.5-VL-1.6B ──────────────────────────────────────
 print(f"Loading LFM-1.6B model: {LFM_16_MODEL_NAME} on {DEVICE}...")
 try:
@@ -146,23 +181,6 @@ except Exception as e:
     qwen25_vl_3b_model = None
     qwen25_vl_3b_processor = None
-# ── Gemma4-E2B-it ───────────────────────────────────────
-print(f"Loading Gemma4-E2B-it: {GEMMA4_E2B_NAME} on {DEVICE}...")
-try:
-    gemma4_e2b_model = Gemma4ForConditionalGeneration.from_pretrained(
-        GEMMA4_E2B_NAME,
-        torch_dtype=torch.bfloat16,
-        device_map="auto" if torch.cuda.is_available() else None,
-    ).eval()
-    if not torch.cuda.is_available():
-        gemma4_e2b_model = gemma4_e2b_model.to(DEVICE)
-    gemma4_e2b_processor = AutoProcessor.from_pretrained(GEMMA4_E2B_NAME)
-    print("Gemma4-E2B-it model loaded successfully.")
-except Exception as e:
-    print(f"Warning: Gemma4-E2B-it model loading failed. Error: {e}")
-    gemma4_e2b_model = None
-    gemma4_e2b_processor = None
 # --- Utility Functions ---
 def safe_parse_json(text: str):
@@ -258,28 +276,59 @@ def generate_inference_stream(
                 yield f"data: {json.dumps({'chunk': tok})}\n\n"
         thread.join()
-    # ── Qwen3-VL ────────────────────────────────────────
-    elif model_id == "qwen_vl":
-        if qwen_vl_model is None or qwen_vl_processor is None:
-            yield f"data: {json.dumps({'chunk': '[Error] Qwen3-VL model not loaded.'})}\n\n"
             yield "data: [DONE]\n\n"
             return
         messages = [{"role": "user", "content": [
             {"type": "image", "image": image},
             {"type": "text",  "text":  full_prompt},
         ]}]
-        text_input = qwen_vl_processor.apply_chat_template(
             messages, tokenize=False, add_generation_prompt=True
         )
-        inputs = qwen_vl_processor(
             text=[text_input], images=[image], return_tensors="pt", padding=True
-        ).to(qwen_vl_model.device)
         streamer = TextIteratorStreamer(
-            qwen_vl_processor.tokenizer,
             skip_prompt=True, skip_special_tokens=True, timeout=120,
         )
         thread = threading.Thread(
-            target=qwen_vl_model.generate,
             kwargs=dict(**inputs, streamer=streamer, max_new_tokens=1024,
                         use_cache=True, temperature=1.0, do_sample=True),
         )
@@ -317,6 +366,40 @@ def generate_inference_stream(
                 yield f"data: {json.dumps({'chunk': tok})}\n\n"
         thread.join()
     # ── LFM-1.6B ────────────────────────────────────────
     elif model_id == "lfm_16":
         if lfm_16_model is None or lfm_16_processor is None:
@@ -412,40 +495,6 @@ def generate_inference_stream(
                 yield f"data: {json.dumps({'chunk': tok})}\n\n"
         thread.join()
-    # ── Gemma4-E2B-it ───────────────────────────────────
-    elif model_id == "gemma4_e2b":
-        if gemma4_e2b_model is None or gemma4_e2b_processor is None:
-            yield f"data: {json.dumps({'chunk': '[Error] Gemma4-E2B-it model not loaded.'})}\n\n"
-            yield "data: [DONE]\n\n"
-            return
-        messages = [{"role": "user", "content": [
-            {"type": "image", "image": image},
-            {"type": "text",  "text":  full_prompt},
-        ]}]
-        text_input = gemma4_e2b_processor.apply_chat_template(
-            messages, tokenize=False, add_generation_prompt=True
-        )
-        inputs = gemma4_e2b_processor(
-            text=[text_input],
-            images=[image],
-            return_tensors="pt",
-            padding=True,
-        ).to(gemma4_e2b_model.device)
-        streamer = TextIteratorStreamer(
-            gemma4_e2b_processor.tokenizer,
-            skip_prompt=True, skip_special_tokens=True, timeout=120,
-        )
-        thread = threading.Thread(
-            target=gemma4_e2b_model.generate,
-            kwargs=dict(**inputs, streamer=streamer, max_new_tokens=1024,
-                        use_cache=True, temperature=1.0, do_sample=True),
-        )
-        thread.start()
-        for tok in streamer:
-            if tok:
-                yield f"data: {json.dumps({'chunk': tok})}\n\n"
-        thread.join()
     yield "data: [DONE]\n\n"
@@ -793,12 +842,13 @@ async def homepage(request: Request):
         }
         .model-badge.q4b     { background: rgba(255,200,80,0.15);  color: #ffc850;        border: 1px solid rgba(255,200,80,0.35); }
         .model-badge.q2b     { background: rgba(124,106,247,0.2);  color: var(--accent);  border: 1px solid rgba(124,106,247,0.3); }
-        .model-badge.qvl     { background: rgba(255,150,50,0.15);  color: #ff9632;        border: 1px solid rgba(255,150,50,0.35); }
         .model-badge.lfm450  { background: rgba(78,205,196,0.15);  color: var(--accent2); border: 1px solid rgba(78,205,196,0.3); }
         .model-badge.lfm16   { background: rgba(107,203,119,0.15); color: #6bcb77;        border: 1px solid rgba(107,203,119,0.35); }
         .model-badge.qunred  { background: rgba(255,80,160,0.15);  color: #ff50a0;        border: 1px solid rgba(255,80,160,0.35); }
         .model-badge.q25vl3b { background: rgba(80,180,255,0.15);  color: #50b4ff;        border: 1px solid rgba(80,180,255,0.35); }
-        .model-badge.g4e2b   { background: rgba(66,197,107,0.15);  color: #42c56b;        border: 1px solid rgba(66,197,107,0.35); }
         .model-info-box {
             border-radius: 6px; padding: 9px;
@@ -815,7 +865,7 @@ async def homepage(request: Request):
     <span class="logo">MULTIMODAL EDGE</span>
     <span class="sep">|</span>
     <span class="sub">Node-Based Inference Canvas</span>
-    <span class="badge">v2.6 — OCTA MODEL</span>
 </div>
 <div id="canvas">
@@ -835,8 +885,6 @@ async def homepage(request: Request):
         <div class="node-body">
             <div>
                 <label>Upload Image</label>
-                <!-- Drop zone -->
                 <div class="file-upload" id="dropZone">
                     <svg width="30" height="30" viewBox="0 0 24 24" fill="none"
                          stroke="#7c6af7" stroke-width="1.5"
@@ -848,8 +896,6 @@ async def homepage(request: Request):
                     <span>Click or drop image here</span>
                     <input type="file" id="fileInput" accept="image/*">
                 </div>
-                <!-- Preview -->
                 <div class="preview-wrap" id="previewWrap">
                     <img id="imgPreview" class="img-preview" />
                     <button class="clear-btn" id="clearBtn" title="Remove image">
@@ -861,8 +907,6 @@ async def homepage(request: Request):
                         </svg>
                     </button>
                 </div>
-                <!-- Filename chip -->
                 <div class="img-chip" id="imgChip" style="margin-top:6px;">
                     <span class="chip-dot"></span>
                     <span class="chip-name" id="chipName">—</span>
@@ -885,12 +929,13 @@ async def homepage(request: Request):
                 <select id="modelSelect">
                     <option value="qwen_4b">Qwen3.5-4B</option>
                     <option value="qwen_2b">Qwen3.5-2B</option>
-                    <option value="qwen_vl">Qwen3-VL-2B-Instruct</option>
                     <option value="lfm_450">LFM2.5-VL-450M (LiquidAI)</option>
                     <option value="lfm_16">LFM2.5-VL-1.6B (LiquidAI)</option>
                     <option value="qwen_unredacted">Qwen3.5-2B-Unredacted-MAX</option>
                     <option value="qwen25_vl_3b">Qwen2.5-VL-3B-Instruct</option>
-                    <option value="gemma4_e2b">Gemma4-E2B-it (Google)</option>
                 </select>
             </div>
             <div id="modelInfoBox" class="model-info-box"
@@ -1111,13 +1156,20 @@ const MODEL_INFO = {
         bg:     'rgba(124,106,247,0.07)',
         border: 'rgba(124,106,247,0.25)',
     },
-    qwen_vl: {
-        html:   `<span class="model-badge qvl">QWEN3-VL · 2B</span><br><br>
                  Qwen3-VL-2B-Instruct — dedicated vision-language model by Alibaba Cloud.
                  Strong spatial grounding, OCR &amp; instruction-following.`,
         bg:     'rgba(255,150,50,0.07)',
         border: 'rgba(255,150,50,0.25)',
     },
     lfm_450: {
         html:   `<span class="model-badge lfm450">LFM · 450M</span><br><br>
                  LFM2.5-VL 450M by LiquidAI. Ultra-lightweight edge model
@@ -1125,6 +1177,13 @@ const MODEL_INFO = {
         bg:     'rgba(78,205,196,0.07)',
         border: 'rgba(78,205,196,0.25)',
     },
     lfm_16: {
         html:   `<span class="model-badge lfm16">LFM · 1.6B</span><br><br>
                  LFM2.5-VL 1.6B by LiquidAI. Larger liquid-state model offering
@@ -1146,13 +1205,6 @@ const MODEL_INFO = {
         bg:     'rgba(80,180,255,0.07)',
         border: 'rgba(80,180,255,0.25)',
     },
-    gemma4_e2b: {
-        html:   `<span class="model-badge g4e2b">GEMMA 4 · E2B</span><br><br>
-                 Gemma4-E2B-it by Google DeepMind. Efficient 2B multimodal model
-                 with strong vision-language understanding &amp; instruction-following.`,
-        bg:     'rgba(66,197,107,0.07)',
-        border: 'rgba(66,197,107,0.25)',
-    },
 };
 modelSelect.onchange = () => {

     else torch.float16
 )
+QWEN_4B_MODEL_NAME    = "Qwen/Qwen3.5-4B"
+QWEN_2B_MODEL_NAME    = "Qwen/Qwen3.5-2B"
+QWEN_VL_2B_MODEL_NAME = "Qwen/Qwen3-VL-2B-Instruct"
+QWEN_VL_4B_MODEL_NAME = "Qwen/Qwen3-VL-4B-Instruct"
+LFM_450_MODEL_NAME    = "LiquidAI/LFM2.5-VL-450M"
+GEMMA4_E2B_NAME       = "google/gemma-4-E2B-it"
+LFM_16_MODEL_NAME     = "LiquidAI/LFM2.5-VL-1.6B"
+QWEN_UNREDACTED_NAME  = "prithivMLmods/Qwen3.5-2B-Unredacted-MAX"
+QWEN25_VL_3B_NAME     = "Qwen/Qwen2.5-VL-3B-Instruct"
 # ── Qwen3.5-4B ──────────────────────────────────────────
 print(f"Loading Qwen3.5-4B model: {QWEN_4B_MODEL_NAME} on {DEVICE}...")
     qwen_2b_processor = None
 # ── Qwen3-VL-2B-Instruct ────────────────────────────────
+print(f"Loading Qwen3-VL-2B model: {QWEN_VL_2B_MODEL_NAME} on {DEVICE}...")
 try:
+    qwen_vl_2b_model = Qwen3VLForConditionalGeneration.from_pretrained(
+        QWEN_VL_2B_MODEL_NAME,
         trust_remote_code=True,
         torch_dtype=torch.bfloat16,
     ).to(DEVICE).eval()
+    qwen_vl_2b_processor = AutoProcessor.from_pretrained(
+        QWEN_VL_2B_MODEL_NAME, trust_remote_code=True
     )
+    print("Qwen3-VL-2B model loaded successfully.")
 except Exception as e:
+    print(f"Warning: Qwen3-VL-2B model loading failed. Error: {e}")
+    qwen_vl_2b_model = None
+    qwen_vl_2b_processor = None
+# ── Qwen3-VL-4B-Instruct ────────────────────────────────
+print(f"Loading Qwen3-VL-4B model: {QWEN_VL_4B_MODEL_NAME} on {DEVICE}...")
+try:
+    qwen_vl_4b_model = Qwen3VLForConditionalGeneration.from_pretrained(
+        QWEN_VL_4B_MODEL_NAME,
+        trust_remote_code=True,
+        torch_dtype=torch.bfloat16,
+    ).to(DEVICE).eval()
+    qwen_vl_4b_processor = AutoProcessor.from_pretrained(
+        QWEN_VL_4B_MODEL_NAME, trust_remote_code=True
+    )
+    print("Qwen3-VL-4B model loaded successfully.")
+except Exception as e:
+    print(f"Warning: Qwen3-VL-4B model loading failed. Error: {e}")
+    qwen_vl_4b_model = None
+    qwen_vl_4b_processor = None
 # ── LFM2.5-VL-450M ──────────────────────────────────────
 print(f"Loading LFM-450M model: {LFM_450_MODEL_NAME} on {DEVICE}...")
     lfm_450_model = None
     lfm_450_processor = None
+# ── Gemma4-E2B-it ───────────────────────────────────────
+print(f"Loading Gemma4-E2B-it: {GEMMA4_E2B_NAME} on {DEVICE}...")
+try:
+    gemma4_e2b_model = Gemma4ForConditionalGeneration.from_pretrained(
+        GEMMA4_E2B_NAME,
+        torch_dtype=torch.bfloat16,
+        device_map="auto" if torch.cuda.is_available() else None,
+    ).eval()
+    if not torch.cuda.is_available():
+        gemma4_e2b_model = gemma4_e2b_model.to(DEVICE)
+    gemma4_e2b_processor = AutoProcessor.from_pretrained(GEMMA4_E2B_NAME)
+    print("Gemma4-E2B-it model loaded successfully.")
+except Exception as e:
+    print(f"Warning: Gemma4-E2B-it model loading failed. Error: {e}")
+    gemma4_e2b_model = None
+    gemma4_e2b_processor = None
 # ── LFM2.5-VL-1.6B ──────────────────────────────────────
 print(f"Loading LFM-1.6B model: {LFM_16_MODEL_NAME} on {DEVICE}...")
 try:
     qwen25_vl_3b_model = None
     qwen25_vl_3b_processor = None
 # --- Utility Functions ---
 def safe_parse_json(text: str):
                 yield f"data: {json.dumps({'chunk': tok})}\n\n"
         thread.join()
+    # ── Qwen3-VL-2B ─────────────────────────────────────
+    elif model_id == "qwen_vl_2b":
+        if qwen_vl_2b_model is None or qwen_vl_2b_processor is None:
+            yield f"data: {json.dumps({'chunk': '[Error] Qwen3-VL-2B model not loaded.'})}\n\n"
+            yield "data: [DONE]\n\n"
+            return
+        messages = [{"role": "user", "content": [
+            {"type": "image", "image": image},
+            {"type": "text",  "text":  full_prompt},
+        ]}]
+        text_input = qwen_vl_2b_processor.apply_chat_template(
+            messages, tokenize=False, add_generation_prompt=True
+        )
+        inputs = qwen_vl_2b_processor(
+            text=[text_input], images=[image], return_tensors="pt", padding=True
+        ).to(qwen_vl_2b_model.device)
+        streamer = TextIteratorStreamer(
+            qwen_vl_2b_processor.tokenizer,
+            skip_prompt=True, skip_special_tokens=True, timeout=120,
+        )
+        thread = threading.Thread(
+            target=qwen_vl_2b_model.generate,
+            kwargs=dict(**inputs, streamer=streamer, max_new_tokens=1024,
+                        use_cache=True, temperature=1.0, do_sample=True),
+        )
+        thread.start()
+        for tok in streamer:
+            if tok:
+                yield f"data: {json.dumps({'chunk': tok})}\n\n"
+        thread.join()
+    # ── Qwen3-VL-4B ─────────────────────────────────────
+    elif model_id == "qwen_vl_4b":
+        if qwen_vl_4b_model is None or qwen_vl_4b_processor is None:
+            yield f"data: {json.dumps({'chunk': '[Error] Qwen3-VL-4B model not loaded.'})}\n\n"
             yield "data: [DONE]\n\n"
             return
         messages = [{"role": "user", "content": [
             {"type": "image", "image": image},
             {"type": "text",  "text":  full_prompt},
         ]}]
+        text_input = qwen_vl_4b_processor.apply_chat_template(
             messages, tokenize=False, add_generation_prompt=True
         )
+        inputs = qwen_vl_4b_processor(
             text=[text_input], images=[image], return_tensors="pt", padding=True
+        ).to(qwen_vl_4b_model.device)
         streamer = TextIteratorStreamer(
+            qwen_vl_4b_processor.tokenizer,
             skip_prompt=True, skip_special_tokens=True, timeout=120,
         )
         thread = threading.Thread(
+            target=qwen_vl_4b_model.generate,
             kwargs=dict(**inputs, streamer=streamer, max_new_tokens=1024,
                         use_cache=True, temperature=1.0, do_sample=True),
         )
                 yield f"data: {json.dumps({'chunk': tok})}\n\n"
         thread.join()
+    # ── Gemma4-E2B-it ───────────────────────────────────
+    elif model_id == "gemma4_e2b":
+        if gemma4_e2b_model is None or gemma4_e2b_processor is None:
+            yield f"data: {json.dumps({'chunk': '[Error] Gemma4-E2B-it model not loaded.'})}\n\n"
+            yield "data: [DONE]\n\n"
+            return
+        messages = [{"role": "user", "content": [
+            {"type": "image", "image": image},
+            {"type": "text",  "text":  full_prompt},
+        ]}]
+        text_input = gemma4_e2b_processor.apply_chat_template(
+            messages, tokenize=False, add_generation_prompt=True
+        )
+        inputs = gemma4_e2b_processor(
+            text=[text_input],
+            images=[image],
+            return_tensors="pt",
+            padding=True,
+        ).to(gemma4_e2b_model.device)
+        streamer = TextIteratorStreamer(
+            gemma4_e2b_processor.tokenizer,
+            skip_prompt=True, skip_special_tokens=True, timeout=120,
+        )
+        thread = threading.Thread(
+            target=gemma4_e2b_model.generate,
+            kwargs=dict(**inputs, streamer=streamer, max_new_tokens=1024,
+                        use_cache=True, temperature=1.0, do_sample=True),
+        )
+        thread.start()
+        for tok in streamer:
+            if tok:
+                yield f"data: {json.dumps({'chunk': tok})}\n\n"
+        thread.join()
     # ── LFM-1.6B ────────────────────────────────────────
     elif model_id == "lfm_16":
         if lfm_16_model is None or lfm_16_processor is None:
                 yield f"data: {json.dumps({'chunk': tok})}\n\n"
         thread.join()
     yield "data: [DONE]\n\n"
         }
         .model-badge.q4b     { background: rgba(255,200,80,0.15);  color: #ffc850;        border: 1px solid rgba(255,200,80,0.35); }
         .model-badge.q2b     { background: rgba(124,106,247,0.2);  color: var(--accent);  border: 1px solid rgba(124,106,247,0.3); }
+        .model-badge.qvl2b   { background: rgba(255,150,50,0.15);  color: #ff9632;        border: 1px solid rgba(255,150,50,0.35); }
+        .model-badge.qvl4b   { background: rgba(255,100,80,0.15);  color: #ff6450;        border: 1px solid rgba(255,100,80,0.35); }
         .model-badge.lfm450  { background: rgba(78,205,196,0.15);  color: var(--accent2); border: 1px solid rgba(78,205,196,0.3); }
+        .model-badge.g4e2b   { background: rgba(66,197,107,0.15);  color: #42c56b;        border: 1px solid rgba(66,197,107,0.35); }
         .model-badge.lfm16   { background: rgba(107,203,119,0.15); color: #6bcb77;        border: 1px solid rgba(107,203,119,0.35); }
         .model-badge.qunred  { background: rgba(255,80,160,0.15);  color: #ff50a0;        border: 1px solid rgba(255,80,160,0.35); }
         .model-badge.q25vl3b { background: rgba(80,180,255,0.15);  color: #50b4ff;        border: 1px solid rgba(80,180,255,0.35); }
         .model-info-box {
             border-radius: 6px; padding: 9px;
     <span class="logo">MULTIMODAL EDGE</span>
     <span class="sep">|</span>
     <span class="sub">Node-Based Inference Canvas</span>
+    <span class="badge">v2.7 — NONA MODEL</span>
 </div>
 <div id="canvas">
         <div class="node-body">
             <div>
                 <label>Upload Image</label>
                 <div class="file-upload" id="dropZone">
                     <svg width="30" height="30" viewBox="0 0 24 24" fill="none"
                          stroke="#7c6af7" stroke-width="1.5"
                     <span>Click or drop image here</span>
                     <input type="file" id="fileInput" accept="image/*">
                 </div>
                 <div class="preview-wrap" id="previewWrap">
                     <img id="imgPreview" class="img-preview" />
                     <button class="clear-btn" id="clearBtn" title="Remove image">
                         </svg>
                     </button>
                 </div>
                 <div class="img-chip" id="imgChip" style="margin-top:6px;">
                     <span class="chip-dot"></span>
                     <span class="chip-name" id="chipName">—</span>
                 <select id="modelSelect">
                     <option value="qwen_4b">Qwen3.5-4B</option>
                     <option value="qwen_2b">Qwen3.5-2B</option>
+                    <option value="qwen_vl_2b">Qwen3-VL-2B-Instruct</option>
+                    <option value="qwen_vl_4b">Qwen3-VL-4B-Instruct</option>
                     <option value="lfm_450">LFM2.5-VL-450M (LiquidAI)</option>
+                    <option value="gemma4_e2b">Gemma4-E2B-it (Google)</option>
                     <option value="lfm_16">LFM2.5-VL-1.6B (LiquidAI)</option>
                     <option value="qwen_unredacted">Qwen3.5-2B-Unredacted-MAX</option>
                     <option value="qwen25_vl_3b">Qwen2.5-VL-3B-Instruct</option>
                 </select>
             </div>
             <div id="modelInfoBox" class="model-info-box"
         bg:     'rgba(124,106,247,0.07)',
         border: 'rgba(124,106,247,0.25)',
     },
+    qwen_vl_2b: {
+        html:   `<span class="model-badge qvl2b">QWEN3-VL · 2B</span><br><br>
                  Qwen3-VL-2B-Instruct — dedicated vision-language model by Alibaba Cloud.
                  Strong spatial grounding, OCR &amp; instruction-following.`,
         bg:     'rgba(255,150,50,0.07)',
         border: 'rgba(255,150,50,0.25)',
     },
+    qwen_vl_4b: {
+        html:   `<span class="model-badge qvl4b">QWEN3-VL · 4B</span><br><br>
+                 Qwen3-VL-4B-Instruct — enhanced vision-language model by Alibaba Cloud.
+                 Superior spatial grounding, richer OCR &amp; stronger multi-step reasoning.`,
+        bg:     'rgba(255,100,80,0.07)',
+        border: 'rgba(255,100,80,0.25)',
+    },
     lfm_450: {
         html:   `<span class="model-badge lfm450">LFM · 450M</span><br><br>
                  LFM2.5-VL 450M by LiquidAI. Ultra-lightweight edge model
         bg:     'rgba(78,205,196,0.07)',
         border: 'rgba(78,205,196,0.25)',
     },
+    gemma4_e2b: {
+        html:   `<span class="model-badge g4e2b">GEMMA 4 · E2B</span><br><br>
+                 Gemma4-E2B-it by Google DeepMind. Efficient 2B multimodal model
+                 with strong vision-language understanding &amp; instruction-following.`,
+        bg:     'rgba(66,197,107,0.07)',
+        border: 'rgba(66,197,107,0.25)',
+    },
     lfm_16: {
         html:   `<span class="model-badge lfm16">LFM · 1.6B</span><br><br>
                  LFM2.5-VL 1.6B by LiquidAI. Larger liquid-state model offering
         bg:     'rgba(80,180,255,0.07)',
         border: 'rgba(80,180,255,0.25)',
     },
 };
 modelSelect.onchange = () => {