Spaces:

Devubiodee
/

Inclusion_demo

Sleeping

App Files Files Community

Devubiodee commited on Feb 22

Commit

369df34

verified ·

1 Parent(s): 540416d

Update app.py

Browse files

Files changed (1) hide show

app.py +46 -31

app.py CHANGED Viewed

@@ -1,13 +1,15 @@
 import gradio as gr
 import whisper
 import requests
 import tempfile
 import os
-# Load your Sign-Speak API key from HF secrets (set in Space settings)
 API_KEY = os.environ.get("SIGN_SPEAK_API_KEY")
 if not API_KEY:
-    raise ValueError("Set SIGN_SPEAK_API_KEY in HF Space secrets")
 BASE_URL = "https://api.sign-speak.com"
 PRODUCE_SIGN_URL = f"{BASE_URL}/produce-sign"
@@ -21,59 +23,72 @@ def get_sign_language(text: str, request_class="BLOCKING", identity="MALE"):
         "english": text.strip(),
         "request_class": request_class.upper(),
         "identity": identity.upper(),
     }
     response = requests.post(PRODUCE_SIGN_URL, json=payload, headers=headers)
     if response.status_code == 200:
-        # Save MP4 bytes to temp file
         with tempfile.NamedTemporaryFile(delete=False, suffix=".mp4") as tmp:
             tmp.write(response.content)
             return tmp.name
     elif response.status_code == 202:
         data = response.json()
         batch_id = data.get("batch_id")
-        raise ValueError(f"Batch request: Poll /produce-sign/{batch_id} later")
     else:
-        raise ValueError(f"Error {response.status_code}: {response.text}")
-def transcribe_and_translate(audio):
-    if audio is None:
         return "No audio recorded.", None
-    # Load Whisper model (medium for accuracy; use 'base' for faster)
-    model = whisper.load_model("medium")
-    # Transcribe audio file
-    result = model.transcribe(audio, language="en")
-    text = result["text"].strip()
-    if not text:
-        return "No speech detected.", None
-    # Get ASL video from Sign-Speak
     try:
         video_path = get_sign_language(text)
-        return f"Transcribed: '{text}'", video_path
-    except ValueError as e:
-        return str(e), None
-# Gradio interface
-with gr.Blocks(title="Speech to ASL Avatar") as demo:
     gr.Markdown("""
-    # Speech → ASL Avatar Translator
-    Speak into the mic → Whisper transcribes → Sign-Speak generates ASL video.
     """)
     with gr.Row():
-        audio_input = gr.Audio(source="microphone", type="filepath", label="Record Audio")
-        submit_btn = gr.Button("Translate")
-    transcript_output = gr.Textbox(label="Transcribed Text / Status")
-    video_output = gr.Video(label="ASL Avatar Video")
     submit_btn.click(
-        transcribe_and_translate,
-        inputs=[audio_input],
         outputs=[transcript_output, video_output]
     )
 demo.launch()

+# app.py - Speech to ASL Avatar on Hugging Face Spaces
 import gradio as gr
 import whisper
 import requests
 import tempfile
 import os
+# Load API key from HF Space secrets (set in Settings → Secrets)
 API_KEY = os.environ.get("SIGN_SPEAK_API_KEY")
 if not API_KEY:
+    raise ValueError("SIGN_SPEAK_API_KEY not set in Space secrets!")
 BASE_URL = "https://api.sign-speak.com"
 PRODUCE_SIGN_URL = f"{BASE_URL}/produce-sign"
         "english": text.strip(),
         "request_class": request_class.upper(),
         "identity": identity.upper(),
+        # Optional: add "model_version": "SLP.2.xs" for smaller/faster if needed
     }
     response = requests.post(PRODUCE_SIGN_URL, json=payload, headers=headers)
     if response.status_code == 200:
+        # Save MP4 bytes to temporary file (Gradio Video needs filepath)
         with tempfile.NamedTemporaryFile(delete=False, suffix=".mp4") as tmp:
             tmp.write(response.content)
             return tmp.name
     elif response.status_code == 202:
         data = response.json()
         batch_id = data.get("batch_id")
+        raise ValueError(f"Batch processing started (ID: {batch_id}). Video will be ready later – check logs or add polling.")
     else:
+        raise ValueError(f"Sign-Speak API error {response.status_code}: {response.text}")
+def transcribe_and_translate(audio_filepath):
+    if audio_filepath is None:
         return "No audio recorded.", None
     try:
+        # Load Whisper model (use "base" or "small" if "medium" is too slow on CPU)
+        model = whisper.load_model("medium")
+        # Transcribe
+        result = model.transcribe(audio_filepath, language="en")
+        text = result["text"].strip()
+        if not text:
+            return "No speech detected in the recording.", None
+        # Get ASL avatar video
         video_path = get_sign_language(text)
+        return f"Transcribed: \"{text}\"", video_path
+    except Exception as e:
+        return f"Error: {str(e)}", None
+# Gradio UI
+with gr.Blocks(title="Speech → ASL Avatar Translator") as demo:
     gr.Markdown("""
+    # Speech to ASL Avatar
+    1. Record your voice using the microphone below
+    2. Click **Translate**
+    3. Whisper transcribes → Sign-Speak generates ASL signing video
     """)
     with gr.Row():
+        audio_input = gr.Audio(
+            sources=["microphone"],          # ← Fixed: "sources" (list), not "source"
+            type="filepath",
+            label="Speak here (click record)",
+            format="wav"                     # Helps Whisper compatibility
+        )
+        submit_btn = gr.Button("Translate", variant="primary")
+    transcript_output = gr.Textbox(label="Transcribed Text / Status", lines=3)
+    video_output = gr.Video(label="ASL Avatar Signing Video", autoplay=True)
+    # Wire up the button
     submit_btn.click(
+        fn=transcribe_and_translate,
+        inputs=audio_input,
         outputs=[transcript_output, video_output]
     )
+# Launch (HF Spaces ignores server_name/port)
 demo.launch()