Spaces:

tencent
/

Penguin-VL

Running on Zero

File size: 3,278 Bytes

import os
from threading import Lock, Thread

import spaces
import torch
from transformers import AutoModelForCausalLM, AutoProcessor, TextIteratorStreamer


_MODEL = None
_PROCESSOR = None
_MODEL_PATH = None
_MODEL_LOCK = Lock()


def _get_attn_implementation():
    return os.getenv("ATTN_IMPLEMENTATION", "flash_attention_2")


def _get_model_revision():
    return os.getenv("MODEL_REVISION")


def _ensure_model_loaded(model_path):
    global _MODEL, _PROCESSOR, _MODEL_PATH

    if _MODEL is not None and _PROCESSOR is not None and _MODEL_PATH == model_path:
        return _MODEL, _PROCESSOR

    with _MODEL_LOCK:
        if _MODEL is not None and _PROCESSOR is not None and _MODEL_PATH == model_path:
            return _MODEL, _PROCESSOR

        attn_implementation = _get_attn_implementation()
        revision = _get_model_revision()

        processor_kwargs = {
            "trust_remote_code": True,
        }
        if revision:
            processor_kwargs["revision"] = revision

        model_kwargs = {
            "trust_remote_code": True,
            "device_map": {"": "cuda:0"},
            "torch_dtype": torch.bfloat16,
            "attn_implementation": attn_implementation,
        }
        if revision:
            model_kwargs["revision"] = revision

        _MODEL = AutoModelForCausalLM.from_pretrained(model_path, **model_kwargs)
        _PROCESSOR = AutoProcessor.from_pretrained(model_path, **processor_kwargs)
        _MODEL_PATH = model_path
        return _MODEL, _PROCESSOR


def preload_model(model_path):
    return _ensure_model_loaded(model_path)


@spaces.GPU(duration=120)
def _run_generation_stream(payload):
    model_path = payload["model_path"]
    model, processor = _ensure_model_loaded(model_path)

    inputs = processor(
        conversation=payload["conversation"],
        add_system_prompt=True,
        add_generation_prompt=True,
        return_tensors="pt",
    )
    inputs = {k: v.to("cuda:0") if isinstance(v, torch.Tensor) else v for k, v in inputs.items()}
    if "pixel_values" in inputs:
        inputs["pixel_values"] = inputs["pixel_values"].to(torch.bfloat16)

    generation_kwargs = {
        **inputs,
        **payload.get("generation_config", {}),
    }
    streamer = TextIteratorStreamer(
        processor.tokenizer,
        skip_prompt=True,
        skip_special_tokens=True,
    )
    generation_kwargs["streamer"] = streamer

    generation_error = {}

    def _generation_worker():
        try:
            with torch.inference_mode():
                model.generate(**generation_kwargs)
        except Exception as exc:
            generation_error["exc"] = exc
            streamer.on_finalized_text("", stream_end=True)

    thread = Thread(target=_generation_worker, daemon=True)
    thread.start()

    for token in streamer:
        yield token

    if "exc" in generation_error:
        raise generation_error["exc"]


class PenguinVLQwen3DirectClient(object):

    def __init__(self, model_path):
        self.model_path = model_path

    def submit(self, payload):
        return _run_generation_stream({
            "model_path": self.model_path,
            "conversation": payload["conversation"],
            "generation_config": payload.get("generation_config", {}),
        })