CanerDedeoglu
/

Rapid_ECG

@@ -1,12 +1,12 @@
 # -*- coding: utf-8 -*-
 # handler.py — Rapid_ECG / PULSE-7B için HF Inference Endpoints custom handler
 # - LLAVA otomatik kurulum (requirements'a yazmak zorunda değilsin)
-# - EndpointHandler.load()/__call__ sözleşmesi
 # - URL / base64 / yerel yol görüntü girişi
 # - <image> sentineli (+ IM_START/END gerekiyorsa)
-# - attention_mask fix (NoneType.new_ones önler)
-# - CUDA'da bf16/fp16, CPU'da fp32; echo-fix (sadece yeni tokenları decode)
 import os
 import io
 import sys
@@ -18,7 +18,7 @@ import torch
 from PIL import Image
 import requests
-# ===== LLaVA: handler içinden kur (tag'e sabitle) =====
 def _ensure_llava(tag: str = "v1.2.0"):
     try:
         import llava  # noqa
@@ -43,6 +43,12 @@ from llava.constants import (
 from llava.model.builder import load_pretrained_model
 from llava.mm_utils import process_images, tokenizer_image_token
 # ---------- yardımcılar ----------
 def _get_env(name: str, default: Optional[str] = None) -> Optional[str]:
@@ -99,8 +105,6 @@ def _load_image_from_any(image_input: Any) -> Image.Image:
         return Image.open(s).convert("RGB")
     raise ValueError(f"Unsupported image input type: {type(image_input)}")
-# --- Senin istediğin: güvenli conv template & prompt build ---
 def _get_conv_mode(model_name: str) -> str:
     name = (model_name or "").lower()
     if "llama-2" in name:
@@ -123,18 +127,77 @@ def _build_prompt_with_image(prompt: str, model_cfg) -> str:
         return f"{token}\n{prompt}"
     return f"{DEFAULT_IMAGE_TOKEN}\n{prompt}"
 # ---------- Endpoint Handler ----------
 class EndpointHandler:
     """
     HF Inference Toolkit çağrı akışı:
-      handler = EndpointHandler()
       handler.load()
       handler(inputs_dict)
     """
     def __init__(self, model_dir: Optional[str] = None):
-        self.model_dir = model_dir   # HF endpoint burayı geçiriyor
         self.model = None
         self.tokenizer = None
         self.image_processor = None
@@ -142,17 +205,14 @@ class EndpointHandler:
         self.device = _pick_device()
         self.dtype = _pick_dtype(self.device)
         self.model_name = None
     def load(self):
-        # Model seçimleri (ENV ile yönetilebilir)
         model_path = _get_env("HF_MODEL_ID", "PULSE-ECG/PULSE-7B")
         model_base = _get_env("HF_MODEL_BASE", None)
-        # (varsa) flash-attn ipuçları — yoksa zarar vermez
         os.environ.setdefault("ATTN_IMPLEMENTATION", "flash_attention_2")
         os.environ.setdefault("FLASH_ATTENTION", "1")
-        # Modeli yükle
         self.tokenizer, self.model, self.image_processor, self.context_len = load_pretrained_model(
             model_path=model_path,
             model_base=model_base,
@@ -163,6 +223,9 @@ class EndpointHandler:
         )
         self.model_name = getattr(self.model.config, "name_or_path", str(model_path))
         # tokenizer güvenliği
         try:
             self.tokenizer.padding_side = "left"
@@ -176,7 +239,7 @@ class EndpointHandler:
     @torch.inference_mode()
     def __call__(self, inputs: Dict[str, Any]) -> Dict[str, Any]:
         if "inputs" in inputs and isinstance(inputs["inputs"], dict):
             inputs = inputs["inputs"]
@@ -202,11 +265,19 @@ class EndpointHandler:
         images = [image]
         image_sizes = [image.size]
-        # process_images -> tensör
         try:
             images_tensor = process_images(images, self.image_processor, self.model.config)
         except Exception:
-            images_tensor = self.image_processor.preprocess(image, return_tensors="pt")["pixel_values"]
         images_tensor = images_tensor.to(self.device, dtype=self.dtype)
         # ---- konuşma şablonu + prompt

 # -*- coding: utf-8 -*-
 # handler.py — Rapid_ECG / PULSE-7B için HF Inference Endpoints custom handler
 # - LLAVA otomatik kurulum (requirements'a yazmak zorunda değilsin)
+# - EndpointHandler.load()/__call__(inputs) sözleşmesi
+# - {"inputs": {...}} ve düz payload formatlarını destekler
 # - URL / base64 / yerel yol görüntü girişi
 # - <image> sentineli (+ IM_START/END gerekiyorsa)
+# - attention_mask fix + echo-fix
+# - CUDA: bf16/fp16, CPU: fp32
 import os
 import io
 import sys
 from PIL import Image
 import requests
+# ===== LLaVA: handler içinden kur =====
 def _ensure_llava(tag: str = "v1.2.0"):
     try:
         import llava  # noqa
 from llava.model.builder import load_pretrained_model
 from llava.mm_utils import process_images, tokenizer_image_token
+# (gerekirse fallback için)
+try:
+    from transformers import AutoProcessor, CLIPImageProcessor  # type: ignore
+except Exception:
+    AutoProcessor = None
+    CLIPImageProcessor = None
 # ---------- yardımcılar ----------
 def _get_env(name: str, default: Optional[str] = None) -> Optional[str]:
         return Image.open(s).convert("RGB")
     raise ValueError(f"Unsupported image input type: {type(image_input)}")
 def _get_conv_mode(model_name: str) -> str:
     name = (model_name or "").lower()
     if "llama-2" in name:
         return f"{token}\n{prompt}"
     return f"{DEFAULT_IMAGE_TOKEN}\n{prompt}"
+# ---- image_processor yoksa oluşturmak için yardımcılar ----
+def _maybe_get_vision_tower_from_cfg(cfg) -> Optional[str]:
+    vt = getattr(cfg, "vision_tower", None)
+    if isinstance(vt, (list, tuple)) and vt:
+        return str(vt[0])
+    if isinstance(vt, str):
+        return vt
+    return _get_env("HF_VISION_TOWER_ID", None)
+class _ProcessorWrapper:
+    """AutoProcessor/FeatureExtractor için .preprocess uyum katmanı."""
+    def __init__(self, proc):
+        self.proc = proc
+    def preprocess(self, image, return_tensors="pt"):
+        out = self.proc(image, return_tensors=return_tensors)
+        # AutoProcessor bazen dict döner, bazen tensor; normalize edelim
+        if isinstance(out, dict):
+            return out
+        return {"pixel_values": out}
+def _ensure_image_processor(image_processor, model_cfg, model_path: str):
+    if image_processor is not None:
+        # bazı AutoProcessor'larda gerçek işleyici proc.image_processor altında
+        if hasattr(image_processor, "preprocess"):
+            return image_processor
+        if hasattr(image_processor, "image_processor"):
+            ip = image_processor.image_processor
+            if hasattr(ip, "preprocess"):
+                return ip
+            return _ProcessorWrapper(ip)
+        if callable(image_processor):
+            return _ProcessorWrapper(image_processor)
+    # 1) AutoProcessor (trust_remote_code ile) dene
+    if AutoProcessor is not None:
+        try:
+            proc = AutoProcessor.from_pretrained(model_path, trust_remote_code=True)
+            if hasattr(proc, "preprocess"):
+                return proc
+            if hasattr(proc, "image_processor"):
+                ip = proc.image_processor
+                if hasattr(ip, "preprocess"):
+                    return ip
+                return _ProcessorWrapper(ip)
+            return _ProcessorWrapper(proc)
+        except Exception:
+            pass
+    # 2) Vision tower'dan CLIPImageProcessor üret
+    vt = _maybe_get_vision_tower_from_cfg(model_cfg)
+    if vt and CLIPImageProcessor is not None:
+        try:
+            ip = CLIPImageProcessor.from_pretrained(vt)
+            return ip
+        except Exception:
+            pass
+    # 3) en sonda None kalsın; çağrı tarafında fallback var
+    return None
 # ---------- Endpoint Handler ----------
 class EndpointHandler:
     """
     HF Inference Toolkit çağrı akışı:
+      handler = EndpointHandler(model_dir)
       handler.load()
       handler(inputs_dict)
     """
     def __init__(self, model_dir: Optional[str] = None):
+        self.model_dir = model_dir
         self.model = None
         self.tokenizer = None
         self.image_processor = None
         self.device = _pick_device()
         self.dtype = _pick_dtype(self.device)
         self.model_name = None
     def load(self):
         model_path = _get_env("HF_MODEL_ID", "PULSE-ECG/PULSE-7B")
         model_base = _get_env("HF_MODEL_BASE", None)
         os.environ.setdefault("ATTN_IMPLEMENTATION", "flash_attention_2")
         os.environ.setdefault("FLASH_ATTENTION", "1")
         self.tokenizer, self.model, self.image_processor, self.context_len = load_pretrained_model(
             model_path=model_path,
             model_base=model_base,
         )
         self.model_name = getattr(self.model.config, "name_or_path", str(model_path))
+        # image_processor fallback (kritik!)
+        self.image_processor = _ensure_image_processor(self.image_processor, self.model.config, model_path)
         # tokenizer güvenliği
         try:
             self.tokenizer.padding_side = "left"
     @torch.inference_mode()
     def __call__(self, inputs: Dict[str, Any]) -> Dict[str, Any]:
+        # HF bazen payload'ı {"inputs": {...}} diye sarar
         if "inputs" in inputs and isinstance(inputs["inputs"], dict):
             inputs = inputs["inputs"]
         images = [image]
         image_sizes = [image.size]
+        # process_images -> tensör (image_processor None olabilir; o zaman plain preprocess)
         try:
+            if self.image_processor is None:
+                # en kaba yedek: AutoProcessor başarısız olduysa
+                raise RuntimeError("image_processor is None")
             images_tensor = process_images(images, self.image_processor, self.model.config)
         except Exception:
+            # plain preprocess
+            if hasattr(self.image_processor, "preprocess"):
+                images_tensor = self.image_processor.preprocess(image, return_tensors="pt")["pixel_values"]
+            else:
+                # en son çare: AutoProcessor benzeri çağrı
+                images_tensor = _ProcessorWrapper(self.image_processor).preprocess(image, return_tensors="pt")["pixel_values"]
         images_tensor = images_tensor.to(self.device, dtype=self.dtype)
         # ---- konuşma şablonu + prompt