Spaces:

TruongLeThanh
/

image_caption

Sleeping

App Files Files Community

TruongLeThanh commited on Apr 28, 2025

Commit

5b72f69

1 Parent(s): b7dc11d

update

Browse files

Files changed (1) hide show

app.py +50 -20

app.py CHANGED Viewed

@@ -1,31 +1,61 @@
-from fastapi import FastAPI, File, UploadFile
-from fastapi.responses import JSONResponse
 from transformers import BlipProcessor, BlipForConditionalGeneration
 from PIL import Image
 import torch
-import io
-app = FastAPI()
-# Load model and processor
 processor = BlipProcessor.from_pretrained("Salesforce/blip-image-captioning-base")
 model = BlipForConditionalGeneration.from_pretrained("Salesforce/blip-image-captioning-base")
 device = "cuda" if torch.cuda.is_available() else "cpu"
 model.to(device)
-@app.get("/")
-async def root():
-    return {"message": "BLIP Image Captioning API is running"}
-@app.post("/predict/")
-async def predict_caption(file: UploadFile = File(...)):
-    contents = await file.read()
-    image = Image.open(io.BytesIO(contents)).convert("RGB")
     inputs = processor(images=image, return_tensors="pt").to(device)
     output = model.generate(**inputs, max_new_tokens=20)
     caption = processor.decode(output[0], skip_special_tokens=True)
-    return JSONResponse(content={"caption": caption})

+# from fastapi import FastAPI, File, UploadFile
+# from fastapi.responses import JSONResponse
+# from transformers import BlipProcessor, BlipForConditionalGeneration
+# from PIL import Image
+# import torch
+# import io
+# app = FastAPI()
+# # Load model and processor
+# processor = BlipProcessor.from_pretrained("Salesforce/blip-image-captioning-base")
+# model = BlipForConditionalGeneration.from_pretrained("Salesforce/blip-image-captioning-base")
+# device = "cuda" if torch.cuda.is_available() else "cpu"
+# model.to(device)
+# @app.get("/")
+# async def root():
+#     return {"message": "BLIP Image Captioning API is running"}
+# @app.post("/predict/")
+# async def predict_caption(file: UploadFile = File(...)):
+#     contents = await file.read()
+#     image = Image.open(io.BytesIO(contents)).convert("RGB")
+#     inputs = processor(images=image, return_tensors="pt").to(device)
+#     output = model.generate(**inputs, max_new_tokens=20)
+#     caption = processor.decode(output[0], skip_special_tokens=True)
+#     return JSONResponse(content={"caption": caption})
+import gradio as gr
 from transformers import BlipProcessor, BlipForConditionalGeneration
 from PIL import Image
 import torch
+# Load model
 processor = BlipProcessor.from_pretrained("Salesforce/blip-image-captioning-base")
 model = BlipForConditionalGeneration.from_pretrained("Salesforce/blip-image-captioning-base")
 device = "cuda" if torch.cuda.is_available() else "cpu"
 model.to(device)
+# Inference function
+def predict_caption(image):
+    if image.mode != "RGB":
+        image = image.convert("RGB")
     inputs = processor(images=image, return_tensors="pt").to(device)
     output = model.generate(**inputs, max_new_tokens=20)
     caption = processor.decode(output[0], skip_special_tokens=True)
+    return caption
+# Gradio UI
+demo = gr.Interface(fn=predict_caption,
+                    inputs=gr.Image(type="pil"),
+                    outputs="text",
+                    title="BLIP Image Captioning",
+                    description="Tải ảnh lên và nhận mô tả tự động bằng BLIP từ Salesforce.")
+demo.launch()