BanglaScreenReader

Sleeping

kj03 commited on Jun 20, 2025

Commit

90d94e7

verified ·

1 Parent(s): 3c875dc

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -21,13 +21,17 @@ def bangla_reader(image):
     generated_ids = model.generate(pixel_values)
     ocr_text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
-    # TTS (without speaker argument)
     with tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as tmp:
-        tts.tts_to_file(text=ocr_text, file_path=tmp.name, language="bn")  # Removed speaker
         audio_path = tmp.name
     return f"OCR ফলাফল: {ocr_text}", audio_path
 # Gradio UI
 demo = gr.Interface(
     fn=bangla_reader,

     generated_ids = model.generate(pixel_values)
     ocr_text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
+    # Choose speaker safely
+    available_speakers = tts.speakers
+    speaker_id = available_speakers[0] if available_speakers else None
+    # TTS
     with tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as tmp:
+        tts.tts_to_file(text=ocr_text, file_path=tmp.name, language="bn", speaker=speaker_id)
         audio_path = tmp.name
     return f"OCR ফলাফল: {ocr_text}", audio_path
 # Gradio UI
 demo = gr.Interface(
     fn=bangla_reader,