Spaces:

jonathanagustin
/

vision-chat

Sleeping

App Files Files Community

jonathanagustin commited on Dec 8, 2025

Commit

726d8f2

verified ·

1 Parent(s): 077b103

Upload folder using huggingface_hub

Browse files

Files changed (3) hide show

README.md +18 -5
app.py +63 -0
requirements.txt +4 -0

README.md CHANGED Viewed

@@ -1,12 +1,25 @@
 ---
 title: Vision Chat
-emoji: ⚡
-colorFrom: purple
-colorTo: indigo
 sdk: gradio
-sdk_version: 6.0.2
 app_file: app.py
 pinned: false
 ---
-Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

 ---
 title: Vision Chat
+emoji: 👁️
+colorFrom: yellow
+colorTo: yellow
 sdk: gradio
+sdk_version: "6.0.2"
 app_file: app.py
 pinned: false
+license: mit
 ---
+## 👁️ Vision Chat
+Get captions and ask questions about images using BLIP and ViLT.
+## Features
+- Automatic image captioning
+- Visual question answering
+- No model downloads - uses API
+## Setup
+Add your `HF_TOKEN` as a Secret in Space Settings.

app.py ADDED Viewed

	@@ -0,0 +1,63 @@

+import os
+import gradio as gr
+from huggingface_hub import InferenceClient
+# Get token from environment (set in HF Space secrets)
+HF_TOKEN = os.environ.get("HF_TOKEN", "")
+client = InferenceClient(token=HF_TOKEN) if HF_TOKEN else InferenceClient()
+def caption_image(image):
+    """Generate a caption for the image."""
+    if image is None:
+        return "📷 Upload an image first!"
+    try:
+        result = client.image_to_text(
+            image,
+            model="Salesforce/blip-image-captioning-base",
+        )
+        return result.generated_text
+    except Exception as e:
+        return f"❌ Error: {e}"
+def answer_question(image, question: str):
+    """Answer a question about the image."""
+    if image is None:
+        return "📷 Upload an image first!"
+    if not question.strip():
+        return "❓ Ask a question!"
+    try:
+        result = client.visual_question_answering(
+            image=image,
+            question=question,
+            model="dandelin/vilt-b32-finetuned-vqa",
+        )
+        top = result[0]
+        return f"🤖 {top.answer} (confidence: {top.score:.1%})"
+    except Exception as e:
+        return f"❌ Error: {e}"
+with gr.Blocks(title="Vision Chat") as demo:
+    gr.Markdown("# 👁️ Vision Chat\nUpload an image, get a caption, and ask questions about it!")
+    with gr.Row(equal_height=True):
+        with gr.Column(scale=1):
+            img = gr.Image(type="pil", label="📷 Your Image")
+            caption_btn = gr.Button("✨ Generate Caption", variant="primary")
+        with gr.Column(scale=1):
+            caption_out = gr.Textbox(label="Caption", lines=2, interactive=False)
+            question = gr.Textbox(label="❓ Ask a question", placeholder="What color is the animal?")
+            ask_btn = gr.Button("Ask", variant="secondary")
+            answer_out = gr.Textbox(label="Answer", lines=2, interactive=False)
+    caption_btn.click(caption_image, inputs=img, outputs=caption_out)
+    ask_btn.click(answer_question, inputs=[img, question], outputs=answer_out)
+    question.submit(answer_question, inputs=[img, question], outputs=answer_out)
+demo.queue()
+demo.launch()

requirements.txt ADDED Viewed

	@@ -0,0 +1,4 @@

+gradio>=6.0.0
+huggingface_hub>=0.23.0
+pillow>=10.0.0