IMGVLM

Sleeping

App Files Files Community

khushalcodiste commited on Mar 7

Commit

78cfb21

1 Parent(s): fa2b547

Initial commit: Qwen3.5-0.8B Vision API

Browse files

Files changed (4) hide show

Dockerfile +21 -0
README.md +37 -6
app.py +142 -0
requirements.txt +8 -0

Dockerfile ADDED Viewed

	@@ -0,0 +1,21 @@

+FROM python:3.11-slim
+WORKDIR /app
+# Install system dependencies
+RUN apt-get update && apt-get install -y --no-install-recommends \
+    build-essential \
+    && rm -rf /var/lib/apt/lists/*
+# Copy requirements and install Python deps
+COPY requirements.txt .
+RUN pip install --no-cache-dir -r requirements.txt
+# Copy application code
+COPY app.py .
+# HF Spaces expects port 7860
+EXPOSE 7860
+# Run the FastAPI app
+CMD ["uvicorn", "app:app", "--host", "0.0.0.0", "--port", "7860"]

README.md CHANGED Viewed

@@ -1,10 +1,41 @@
 ---
-title: IMGVLM
-emoji: 🦀
-colorFrom: purple
-colorTo: yellow
 sdk: docker
-pinned: false
 ---
-Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

 ---
+title: Qwen3.5-0.8B Vision API
+emoji: 🔮
+colorFrom: blue
+colorTo: purple
 sdk: docker
+app_port: 7860
 ---
+# Qwen3.5-0.8B Vision API
+FastAPI service for image inference using [Qwen/Qwen3.5-0.8B](https://huggingface.co/Qwen/Qwen3.5-0.8B).
+## Endpoints
+### `POST /inference`
+Upload an image file with a text prompt.
+**Parameters:**
+- `file` (required) - Image file upload
+- `prompt` (optional) - Text prompt (default: "Describe this image in detail.")
+- `max_tokens` (optional) - Max tokens to generate (default: 512)
+### `POST /inference/base64`
+Send a base64-encoded image with a text prompt.
+**Parameters:**
+- `image_base64` (required) - Base64-encoded image
+- `prompt` (optional) - Text prompt
+- `max_tokens` (optional) - Max tokens to generate
+### `GET /health`
+Health check endpoint.
+## Usage
+```bash
+curl -X POST "https://your-space.hf.space/inference" \
+  -F "file=@image.png" \
+  -F "prompt=What is in this image?"
+```

app.py ADDED Viewed

	@@ -0,0 +1,142 @@

+import io
+import base64
+from contextlib import asynccontextmanager
+import torch
+from fastapi import FastAPI, File, Form, UploadFile, HTTPException
+from fastapi.responses import JSONResponse
+from PIL import Image
+from transformers import Qwen2_5_VLForConditionalGeneration, AutoProcessor
+from qwen_vl_utils import process_vision_info
+model = None
+processor = None
+MODEL_ID = "Qwen/Qwen3.5-0.8B"
+@asynccontextmanager
+async def lifespan(app: FastAPI):
+    global model, processor
+    print(f"Loading model {MODEL_ID}...")
+    model = Qwen2_5_VLForConditionalGeneration.from_pretrained(
+        MODEL_ID,
+        torch_dtype=torch.float16,
+        device_map="auto",
+    )
+    processor = AutoProcessor.from_pretrained(MODEL_ID)
+    print("Model loaded successfully.")
+    yield
+    del model, processor
+app = FastAPI(title="Qwen3.5-0.8B Vision API", lifespan=lifespan)
+@app.get("/")
+async def root():
+    return {"status": "ok", "model": MODEL_ID}
+@app.get("/health")
+async def health():
+    return {"status": "healthy", "model_loaded": model is not None}
+@app.post("/inference")
+async def inference(
+    file: UploadFile = File(...),
+    prompt: str = Form(default="Describe this image in detail."),
+    max_tokens: int = Form(default=512),
+):
+    if model is None or processor is None:
+        raise HTTPException(status_code=503, detail="Model not loaded yet.")
+    try:
+        image_bytes = await file.read()
+        image = Image.open(io.BytesIO(image_bytes)).convert("RGB")
+    except Exception:
+        raise HTTPException(status_code=400, detail="Invalid image file.")
+    messages = [
+        {
+            "role": "user",
+            "content": [
+                {"type": "image", "image": image},
+                {"type": "text", "text": prompt},
+            ],
+        }
+    ]
+    text = processor.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
+    image_inputs, video_inputs = process_vision_info(messages)
+    inputs = processor(
+        text=[text],
+        images=image_inputs,
+        videos=video_inputs,
+        padding=True,
+        return_tensors="pt",
+    ).to(model.device)
+    with torch.no_grad():
+        generated_ids = model.generate(**inputs, max_new_tokens=max_tokens)
+    # Trim input tokens from generated output
+    generated_ids_trimmed = [
+        out_ids[len(in_ids):]
+        for in_ids, out_ids in zip(inputs.input_ids, generated_ids)
+    ]
+    response_text = processor.batch_decode(
+        generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False
+    )[0]
+    return JSONResponse(content={"response": response_text})
+@app.post("/inference/base64")
+async def inference_base64(
+    image_base64: str = Form(...),
+    prompt: str = Form(default="Describe this image in detail."),
+    max_tokens: int = Form(default=512),
+):
+    if model is None or processor is None:
+        raise HTTPException(status_code=503, detail="Model not loaded yet.")
+    try:
+        image_bytes = base64.b64decode(image_base64)
+        image = Image.open(io.BytesIO(image_bytes)).convert("RGB")
+    except Exception:
+        raise HTTPException(status_code=400, detail="Invalid base64 image.")
+    messages = [
+        {
+            "role": "user",
+            "content": [
+                {"type": "image", "image": image},
+                {"type": "text", "text": prompt},
+            ],
+        }
+    ]
+    text = processor.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
+    image_inputs, video_inputs = process_vision_info(messages)
+    inputs = processor(
+        text=[text],
+        images=image_inputs,
+        videos=video_inputs,
+        padding=True,
+        return_tensors="pt",
+    ).to(model.device)
+    with torch.no_grad():
+        generated_ids = model.generate(**inputs, max_new_tokens=max_tokens)
+    generated_ids_trimmed = [
+        out_ids[len(in_ids):]
+        for in_ids, out_ids in zip(inputs.input_ids, generated_ids)
+    ]
+    response_text = processor.batch_decode(
+        generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False
+    )[0]
+    return JSONResponse(content={"response": response_text})

requirements.txt ADDED Viewed

	@@ -0,0 +1,8 @@

+fastapi==0.115.6
+uvicorn[standard]==0.34.0
+transformers==4.48.1
+torch==2.5.1
+Pillow==11.1.0
+python-multipart==0.0.20
+accelerate==1.2.1
+qwen-vl-utils==0.0.8