Spaces:

fizzarif7
/

voice2comic

Sleeping

App Files Files Community

fizzarif7 commited on Jul 7, 2025

Commit

e1c4ed0

verified ·

1 Parent(s): 79e74f0

Update app.py

Browse files

Files changed (1) hide show

app.py +17 -16

app.py CHANGED Viewed

@@ -32,24 +32,18 @@ image_model = genai.GenerativeModel(
 hf_client = InferenceClient(token=hf_token)
 # -------------------- Utility Functions --------------------
-def transcribe_speech():
     recognizer = sr.Recognizer()
-    mic = sr.Microphone()
-    with mic as source:
         try:
-            recognizer.adjust_for_ambient_noise(source)
-            print("🎤 Listening...")
-            audio = recognizer.listen(source, timeout=5)
-            print("🧠 Transcribing...")
-            text = recognizer.recognize_google(audio)
-            return text
-        except sr.WaitTimeoutError:
-            return "❗ Timeout. Try again."
         except sr.UnknownValueError:
-            return "❗ Could not understand audio."
-        except sr.RequestError as e:
-            return f"❗ API error: {e}"
 def generate_image_from_text(prompt):
     try:
@@ -343,7 +337,8 @@ with gr.Blocks(
         with gr.Row():
             char_count = gr.Number(label="👥 Number of Characters", precision=0, value=2, elem_id="char-count")
             character_names = gr.Textbox(label="🧙‍♂️ Character Names", elem_id="char-names")
-            char_speak_btn = gr.Button("🎤 Speak", elem_id="speak-char-names")
         with gr.Row():
             dialogue = gr.Textbox(label="💬 Dialogue (optional)", placeholder="e.g. 'Protect the forest!'", elem_id="dialogue-input")
             dialogue_speaker = gr.Textbox(label="🗣️ Who says the dialogue?", placeholder="e.g. Bramble", elem_id = "dialogue-speaker")
@@ -439,5 +434,11 @@ with gr.Blocks(
         inputs=[explanation_output],
         outputs=[tts_audio]
     )
 demo.launch()

 hf_client = InferenceClient(token=hf_token)
 # -------------------- Utility Functions --------------------
+def transcribe_audio(audio):
+    import speech_recognition as sr
     recognizer = sr.Recognizer()
+    with sr.AudioFile(audio) as source:
+        audio_data = recognizer.record(source)
         try:
+            return recognizer.recognize_google(audio_data)
         except sr.UnknownValueError:
+            return "Speech not understood."
+        except sr.RequestError:
+            return "Speech recognition API error."
 def generate_image_from_text(prompt):
     try:
         with gr.Row():
             char_count = gr.Number(label="👥 Number of Characters", precision=0, value=2, elem_id="char-count")
             character_names = gr.Textbox(label="🧙‍♂️ Character Names", elem_id="char-names")
+            mic_char_names = gr.Audio(source="microphone", type="filepath", label="🎤 Speak Character Names")
+            transcribe_btn_names = gr.Button("📝 Transcribe")
         with gr.Row():
             dialogue = gr.Textbox(label="💬 Dialogue (optional)", placeholder="e.g. 'Protect the forest!'", elem_id="dialogue-input")
             dialogue_speaker = gr.Textbox(label="🗣️ Who says the dialogue?", placeholder="e.g. Bramble", elem_id = "dialogue-speaker")
         inputs=[explanation_output],
         outputs=[tts_audio]
     )
+    transcribe_btn_names.click(
+        fn=transcribe_audio,
+        inputs=[mic_char_names],
+        outputs=[character_names]
+    )
 demo.launch()