Spaces:

dlaima
/

AutoCaptioner

Sleeping

App Files Files Community

dlaima commited on Aug 28, 2025

Commit

c88e865

verified ·

1 Parent(s): e0e7e96

Update app.py

Browse files

Files changed (1) hide show

app.py +18 -24

app.py CHANGED Viewed

@@ -3,7 +3,6 @@ import os
 import io
 from PIL import Image
 import requests
-import base64
 import warnings
 import gradio as gr
@@ -25,42 +24,38 @@ if not endpoint_url:
 def generate_caption(image):
     """
     Sends an image to the Hugging Face Inference Endpoint for caption generation.
-    Uses base64 encoding for compatibility.
     :param image: An image in PIL format.
     :return: Generated caption or error message.
     """
     try:
         headers = {"Authorization": f"Bearer {hf_api_key}"}
-        # Convert the image to RGB and encode it in base64
         buffered = io.BytesIO()
-        image = image.convert("RGB")  # Ensure the image is in RGB mode
         image.save(buffered, format="JPEG")
         buffered.seek(0)
-        image_base64 = base64.b64encode(buffered.read()).decode("utf-8")
-        # Prepare the JSON payload
-        payload = {"inputs": image_base64}
-        # Make the POST request to the endpoint
-        response = requests.post(endpoint_url, headers=headers, json=payload)
-        response_data = response.json()
         if response.status_code == 200:
-            # Handle response as a list or dictionary
             if isinstance(response_data, list):
-                # Assuming the first item contains the generated text
                 return response_data[0].get("generated_text", "No caption generated.")
             elif isinstance(response_data, dict):
                 return response_data.get("generated_text", "No caption generated.")
             else:
                 return f"Unexpected response format: {response_data}"
         else:
-            # Log the error response for debugging
-            return (
-                f"Error: {response.status_code} - {response.text}\n"
-                f"Headers: {headers}\nEndpoint: {endpoint_url}"
-            )
     except Exception as e:
         return f"An error occurred: {str(e)}"
@@ -91,13 +86,12 @@ demo = gr.Interface(
     title="Image Captioning App",
     description=(
         "Upload an image or use one of the predefined samples to generate a caption. "
-        "This app uses a Hugging Face Inference Endpoint for the Salesforce/blip-image-captioning-base model."
     ),
 )
 if __name__ == "__main__":
     # Launch the Gradio demo
-    demo.launch()

 import io
 from PIL import Image
 import requests
 import warnings
 import gradio as gr
 def generate_caption(image):
     """
     Sends an image to the Hugging Face Inference Endpoint for caption generation.
+    Sends raw image bytes (not base64).
     :param image: An image in PIL format.
     :return: Generated caption or error message.
     """
     try:
         headers = {"Authorization": f"Bearer {hf_api_key}"}
+        # Convert the image to RGB and save as JPEG into buffer
         buffered = io.BytesIO()
+        image = image.convert("RGB")
         image.save(buffered, format="JPEG")
         buffered.seek(0)
+        # Send raw image bytes to the endpoint
+        response = requests.post(endpoint_url, headers=headers, data=buffered.getvalue())
+        # Try to parse JSON response safely
+        try:
+            response_data = response.json()
+        except ValueError:
+            return f"Invalid response (not JSON): {response.text}"
         if response.status_code == 200:
             if isinstance(response_data, list):
                 return response_data[0].get("generated_text", "No caption generated.")
             elif isinstance(response_data, dict):
                 return response_data.get("generated_text", "No caption generated.")
             else:
                 return f"Unexpected response format: {response_data}"
         else:
+            return f"Error {response.status_code}: {response.text}"
     except Exception as e:
         return f"An error occurred: {str(e)}"
     title="Image Captioning App",
     description=(
         "Upload an image or use one of the predefined samples to generate a caption. "
+        "This app uses a Hugging Face Inference Endpoint for the Salesforce/blip-image-captioning-large model."
     ),
 )
 if __name__ == "__main__":
     # Launch the Gradio demo
+    demo.launch()