Spaces:

hackergeek
/

RADIOCAP

Sleeping

hackergeek commited on Nov 14, 2025

Commit

c0eb6b0

verified ·

1 Parent(s): a7016ac

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,16 +1,10 @@
-# 📦 RADIOCAP13 — HuggingFace Space
-#Below is a complete multi-file project layout for deploying your image-captioning model as a HuggingFace Space.
-#You can copy/paste these into your repository.
-## **app.py**
 import gradio as gr
 import torch
 from transformers import ViTModel
 from PIL import Image
 from torchvision import transforms
 import json
 IMG_SIZE = 224
 SEQ_LEN = 32
@@ -57,15 +51,17 @@ class BiasDecoder(torch.nn.Module):
         x = x + img_feat.unsqueeze(1)
         return self.final_layer(x)
-# Load models
-decoder = BiasDecoder().to(device)
-decoder.load_state_dict(torch.load("pytorch_model.bin", map_location=device))
-decoder.eval()
 vit = ViTModel.from_pretrained("google/vit-base-patch16-224-in21k").to(device)
 vit.eval()
-tokenizer = SimpleTokenizer.load("./")
 pad_idx = tokenizer.word2idx["<PAD>"]
 @torch.no_grad()
@@ -94,10 +90,20 @@ def generate_caption(img):
 with gr.Blocks() as demo:
     gr.Markdown("# RADIOCAP13 — Image Captioning Demo")
     img_in = gr.Image(type="pil", label="Upload an Image")
     out = gr.Textbox(label="Generated Caption")
     btn = gr.Button("Generate Caption")
-    btn.click(generate_caption, inputs=img_in, outputs=out)
 if __name__ == "__main__":
     demo.launch()

 import gradio as gr
 import torch
 from transformers import ViTModel
 from PIL import Image
 from torchvision import transforms
 import json
+import os
 IMG_SIZE = 224
 SEQ_LEN = 32
         x = x + img_feat.unsqueeze(1)
         return self.final_layer(x)
+# Load ViT
 vit = ViTModel.from_pretrained("google/vit-base-patch16-224-in21k").to(device)
 vit.eval()
+# Load decoder weights from RADIOCAP13 folder
+decoder = BiasDecoder().to(device)
+decoder.load_state_dict(torch.load("RADIOCAP13/pytorch_model.bin", map_location=device))
+decoder.eval()
+# Load tokenizer from same folder
+tokenizer = SimpleTokenizer.load("RADIOCAP13")
 pad_idx = tokenizer.word2idx["<PAD>"]
 @torch.no_grad()
 with gr.Blocks() as demo:
     gr.Markdown("# RADIOCAP13 — Image Captioning Demo")
+    gr.Markdown(f"**Device:** {'GPU 🚀' if torch.cuda.is_available() else 'CPU 🐢'}")
     img_in = gr.Image(type="pil", label="Upload an Image")
     out = gr.Textbox(label="Generated Caption")
     btn = gr.Button("Generate Caption")
+    status = gr.Markdown("Ready.")
+    def wrapped(img):
+        status.update("Processing…")
+        caption = generate_caption(img)
+        status.update("Done ✔️")
+        return caption
+    btn.click(wrapped, inputs=img_in, outputs=out)
 if __name__ == "__main__":
     demo.launch()