BanglaScreenReader

Sleeping

App Files Files Community

kj03 commited on Jun 20, 2025

Commit

5ffa482

verified ·

1 Parent(s): b892f74

Update app.py

Browse files

Files changed (1) hide show

app.py +33 -116

app.py CHANGED Viewed

@@ -1,122 +1,39 @@
 from transformers import DetrImageProcessor, DetrForObjectDetection
-from PIL import Image, ImageDraw, ImageFont
 import torch
-import gradio as gr
-from gtts import gTTS
-import tempfile
-import time
-import threading
-import queue
-# Load model and processor
-model = DetrForObjectDetection.from_pretrained("facebook/detr-resnet-50", ignore_mismatched_sizes=True)
 processor = DetrImageProcessor.from_pretrained("facebook/detr-resnet-50")
-labels = model.config.id2label
-# Speak text to mp3 file
-def speak_text_to_file(text):
-    tts = gTTS(text)
-    temp_file = tempfile.NamedTemporaryFile(delete=False, suffix=".mp3")
-    tts.save(temp_file.name)
-    return temp_file.name
-# Generate fallback error image
-def generate_error_image(msg):
-    img = Image.new('RGB', (640, 480), (40, 40, 40))
-    draw = ImageDraw.Draw(img)
-    try:
-        font = ImageFont.truetype("arial.ttf", 20)
-    except:
-        font = ImageFont.load_default()
-    draw.text((20, 50), msg, fill=(255, 0, 0), font=font)
-    return img
-# Object detection logic
 def detect_objects(image):
-    if image is None:
-        error_msg = "⚠️ No image captured! Please ensure your webcam is working."
-        audio_path = speak_text_to_file(error_msg)
-        return generate_error_image(error_msg), error_msg, audio_path
-    try:
-        inputs = processor(images=image, return_tensors="pt")
-        outputs = model(**inputs)
-        target_size = torch.tensor([image.size[::-1]])
-        results = processor.post_process_object_detection(
-            outputs, target_sizes=target_size, threshold=0.5
-        )[0]
-        draw = ImageDraw.Draw(image)
-        object_details = []
-        for score, label, box in zip(results["scores"], results["labels"], results["boxes"]):
-            box = [round(i, 2) for i in box.tolist()]
-            label_name = labels[label.item()]
-            confidence = round(score.item(), 2)
-            if confidence > 0.5:
-                draw.rectangle(box, outline="red", width=3)
-                draw.text((box[0], box[1] - 20), f"{label_name} {confidence:.0%}", fill="red")
-                object_details.append(f"{label_name} ({confidence:.0%})")
-        summary = "Detected: " + ", ".join(object_details[:5]) if object_details else "No objects detected with high confidence."
-        audio_path = speak_text_to_file(summary)
-        return image, summary, audio_path
-    except Exception as e:
-        error_msg = f"⚠️ Error during detection: {str(e)}"
-        return generate_error_image(error_msg), error_msg, speak_text_to_file(error_msg)
-# Shared state and queues
-detection_flag = {"active": False}
-image_state = {"latest": None}
-result_queue = queue.Queue()
-# Detection thread runs every 5 seconds
-def detection_loop():
-    last_time = 0
-    while True:
-        if detection_flag["active"] and image_state["latest"]:
-            now = time.time()
-            if now - last_time >= 5:
-                result = detect_objects(image_state["latest"])
-                result_queue.put(result)
-                last_time = now
-        time.sleep(1)
-threading.Thread(target=detection_loop, daemon=True).start()
-# Gradio UI
-with gr.Blocks(title="What's This? - Legacy Gradio Object Detector") as app:
-    gr.Markdown("# 🔍 What's This? - Real-time Object Detector")
-    gr.Markdown("Detects objects in webcam feed and reads them out loud every 5 seconds.")
-    webcam = gr.Image(sources=["webcam"], type="pil", streaming=True, label="Live Webcam")
-    output_img = gr.Image(type="pil", label="Detected Image")
-    output_text = gr.Textbox(label="Detected Objects")
-    audio_output = gr.Audio(type="filepath", label="Spoken Summary", autoplay=True)
-    status = gr.Textbox(value="Detection paused", label="Status", interactive=False)
-    start_btn = gr.Button("Start Detection", variant="primary")
-    stop_btn = gr.Button("Stop Detection", variant="secondary")
-    # Webcam frame update triggers result check
-    def update_and_poll(image):
-        image_state["latest"] = image
-        if not result_queue.empty():
-            img, txt, aud = result_queue.get()
-            return img, txt, aud, "Detection running"
-        return gr.update(), gr.update(), gr.update(), gr.update()
-    webcam.change(update_and_poll, inputs=webcam, outputs=[output_img, output_text, audio_output, status])
-    # Start and stop buttons toggle detection
-    def start_detection():
-        detection_flag["active"] = True
-        return "Detection started"
-    def stop_detection():
-        detection_flag["active"] = False
-        return "Detection paused"
-    start_btn.click(start_detection, outputs=status)
-    stop_btn.click(stop_detection, outputs=status)
-app.queue().launch()

+import gradio as gr
 from transformers import DetrImageProcessor, DetrForObjectDetection
 import torch
+from PIL import Image, ImageDraw
+# Load pre-trained model and processor
 processor = DetrImageProcessor.from_pretrained("facebook/detr-resnet-50")
+model = DetrForObjectDetection.from_pretrained("facebook/detr-resnet-50")
+# Object detection function
 def detect_objects(image):
+    # Convert image and run model
+    inputs = processor(images=image, return_tensors="pt")
+    outputs = model(**inputs)
+    # Get outputs
+    target_sizes = torch.tensor([image.size[::-1]])  # PIL: (W, H) -> expected (H, W)
+    results = processor.post_process_object_detection(outputs, target_sizes=target_sizes, threshold=0.9)[0]
+    # Draw boxes on the image
+    draw = ImageDraw.Draw(image)
+    for score, label, box in zip(results["scores"], results["labels"], results["boxes"]):
+        box = [round(i, 2) for i in box.tolist()]
+        draw.rectangle(box, outline="red", width=3)
+        draw.text((box[0], box[1]), f"{model.config.id2label[label.item()]}: {round(score.item(), 3)}", fill="red")
+    return image
+# Launch Gradio interface
+demo = gr.Interface(
+    fn=detect_objects,
+    inputs=gr.Image(source="camera", tool="editor", live=True),
+    outputs=gr.Image(type="pil"),
+    title="Real-Time Object Detection",
+    description="Open webcam and detect objects using facebook/detr-resnet-50"
+)
+if __name__ == "__main__":
+    demo.launch()