BanglaScreenReader

Sleeping

App Files Files Community

kj03 commited on Jun 20, 2025

Commit

1213370

verified ·

1 Parent(s): 90d94e7

Update app.py

Browse files

Files changed (1) hide show

app.py +23 -19

app.py CHANGED Viewed

@@ -1,37 +1,41 @@
 import gradio as gr
-from transformers import TrOCRProcessor, VisionEncoderDecoderModel
 from PIL import Image
 import torch
-from TTS.api import TTS
 import tempfile
-# Load OCR model
 processor = TrOCRProcessor.from_pretrained("microsoft/trocr-base-stage1")
-model = VisionEncoderDecoderModel.from_pretrained("microsoft/trocr-base-stage1")
-# Load multilingual TTS model (supports Bangla)
-tts = TTS(model_name="tts_models/multilingual/multi-dataset/your_tts", progress_bar=False, gpu=False)
 def bangla_reader(image):
     if image is None:
-        return "কোনো ছবি পাওয়া যায়নি।", None
-    # OCR
     pixel_values = processor(images=image, return_tensors="pt").pixel_values
-    generated_ids = model.generate(pixel_values)
     ocr_text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
-    # Choose speaker safely
-    available_speakers = tts.speakers
-    speaker_id = available_speakers[0] if available_speakers else None
-    # TTS
-    with tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as tmp:
-        tts.tts_to_file(text=ocr_text, file_path=tmp.name, language="bn", speaker=speaker_id)
         audio_path = tmp.name
-    return f"OCR ফলাফল: {ocr_text}", audio_path
 # Gradio UI
 demo = gr.Interface(
     fn=bangla_reader,
@@ -40,8 +44,8 @@ demo = gr.Interface(
         gr.Textbox(label="OCR ফলাফল"),
         gr.Audio(label="বাংলা কণ্ঠে পাঠ করুন")
     ],
-    title="📖 বাংলা রিডার",
-    description="ছবির বাংলা লেখা পড়ে তা কণ্ঠে রূপান্তর করে শোনায়।"
 )
 if __name__ == "__main__":

 import gradio as gr
 from PIL import Image
 import torch
+from transformers import TrOCRProcessor, VisionEncoderDecoderModel
+from espnet2.bin.tts_inference import Text2Speech
+import soundfile as sf
 import tempfile
+# Load OCR model (TrOCR base)
 processor = TrOCRProcessor.from_pretrained("microsoft/trocr-base-stage1")
+ocr_model = VisionEncoderDecoderModel.from_pretrained("microsoft/trocr-base-stage1")
+# Load Bangla TTS model from ESPnet
+tts_model = Text2Speech.from_pretrained(
+    model_tag="kan-bayashi/bengali_female",
+    device="cpu"
+)
 def bangla_reader(image):
     if image is None:
+        return "কোনো ছবি দেওয়া হয়নি।", None
+    # Step 1: OCR
     pixel_values = processor(images=image, return_tensors="pt").pixel_values
+    generated_ids = ocr_model.generate(pixel_values)
     ocr_text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
+    # Step 2: Bangla TTS
+    with torch.no_grad():
+        wav_output = tts_model(ocr_text)["wav"]
+    # Save to temporary file
+    with tempfile.NamedTemporaryFile(delete=False, suffix=".wav") as tmp:
+        sf.write(tmp.name, wav_output.view(-1).cpu().numpy(), 22050)
         audio_path = tmp.name
+    return f"OCR ফলাফল:\n{ocr_text}", audio_path
 # Gradio UI
 demo = gr.Interface(
     fn=bangla_reader,
         gr.Textbox(label="OCR ফলাফল"),
         gr.Audio(label="বাংলা কণ্ঠে পাঠ করুন")
     ],
+    title="📖 বাংলা রিডার (Bangla Reader)",
+    description="ছবির বাংলা লেখা পড়ে তা পাঠ্য ও কণ্ঠে রূপান্তর করে শোনায়।"
 )
 if __name__ == "__main__":