Spaces:

shanusherly
/

audio

Sleeping

App Files Files Community

shanusherly commited on 28 days ago

Commit

3e5f5e4

verified ·

1 Parent(s): 9d3af1d

Update app.py

Browse files

Files changed (1) hide show

app.py +14 -107

app.py CHANGED Viewed

@@ -10,16 +10,17 @@ from google.api_core.exceptions import ResourceExhausted
 # Config / Secrets
 # -----------------------
 GEMINI_API_KEY = os.environ.get("GEMINI_API_KEY")
-ELEVENLABS_API_KEY = os.environ.get("ELEVENLABS_API_KEY")
-ELEVENLABS_MODEL_ID = os.environ.get("ELEVENLABS_MODEL_ID", None)  # optional override
-ELEVENLABS_VOICE_ID = os.environ.get("ELEVENLABS_VOICE_ID", "21m00Tcm4TlvDq8ikWAM")
-HF_API_TOKEN = os.environ.get("HF_API_TOKEN")  # Hugging Face fallback token
-HF_TTS_MODEL = os.environ.get("HF_TTS_MODEL", "microsoft/speecht5_tts")  # fallback HF model id
 AUDIO_TMP_DIR = "/tmp"
 if not GEMINI_API_KEY:
     raise RuntimeError("Missing GEMINI_API_KEY in environment. Add it to HF Space Secrets as GEMINI_API_KEY.")
 # Configure Gemini
 genai.configure(api_key=GEMINI_API_KEY)
 gemini_model = genai.GenerativeModel("gemini-2.5-flash")
@@ -49,7 +50,7 @@ class SimpleMemory:
 memory = SimpleMemory(max_messages=40)
 # -----------------------
-# Prompt
 # -----------------------
 PROMPT_TEMPLATE = """You are a helpful assistant.
 {chat_history}
@@ -107,89 +108,12 @@ def generate_text_with_gemini(user_message):
         return None, f"Gemini error: {repr(efinal)}"
 # -----------------------
-# ElevenLabs HTTP TTS (tries a list of models)
-# Returns (path, error)
-# -----------------------
-def generate_audio_elevenlabs_http(text):
-    if not ELEVENLABS_API_KEY:
-        return "", "ELEVENLABS_API_KEY not configured."
-    candidates = []
-    if ELEVENLABS_MODEL_ID:
-        candidates.append(ELEVENLABS_MODEL_ID)
-    candidates += [
-        "eleven_multilingual_v2",
-        "eleven_creative_v1",
-        "eleven_standard_v1",
-        # legacy (likely deprecated) left last
-        "eleven_monolingual_v1",
-        "eleven_multilingual_v1",
-    ]
-    url_template = "https://api.elevenlabs.io/v1/text-to-speech/{voice_id}"
-    last_err = None
-    for model_id in [m for m in candidates if m]:
-        url = url_template.format(voice_id=ELEVENLABS_VOICE_ID)
-        headers = {
-            "Accept": "audio/mpeg",
-            "Content-Type": "application/json",
-            "xi-api-key": ELEVENLABS_API_KEY
-        }
-        payload = {
-            "text": text,
-            "model_id": model_id,
-            "voice_settings": {"stability": 0.5, "similarity_boost": 0.5}
-        }
-        try:
-            resp = requests.post(url, json=payload, headers=headers, timeout=30)
-        except Exception as e:
-            last_err = f"ElevenLabs HTTP request failed for model {model_id}: {e}"
-            print(last_err)
-            continue
-        if resp.status_code == 200:
-            try:
-                filename = f"audio_{int(time.time()*1000)}_{abs(hash(text))%100000}.mp3"
-                path = os.path.join(AUDIO_TMP_DIR, filename)
-                with open(path, "wb") as f:
-                    f.write(resp.content)
-                print(f"ElevenLabs: audio saved to {path} using model {model_id}")
-                return path, ""
-            except Exception as e:
-                last_err = f"Failed to save ElevenLabs audio for {model_id}: {e}"
-                print(last_err)
-                continue
-        else:
-            try:
-                body = resp.json()
-            except Exception:
-                body = resp.text
-            last_err = f"ElevenLabs API error {resp.status_code} (model={model_id}): {body}"
-            print(last_err)
-            # If the API indicates deprecated free tier, stop trying deprecated models
-            try:
-                detail = body.get("detail") if isinstance(body, dict) else None
-                if detail and isinstance(detail, dict):
-                    status = detail.get("status", "")
-                    if "model_deprecated_free_tier" in str(status) or "detected_unusual_activity" in str(status):
-                        # break early in many cases
-                        break
-            except Exception:
-                pass
-            continue
-    return "", last_err or "Unknown ElevenLabs error"
-# -----------------------
-# Hugging Face Inference API TTS fallback
-# Requires HF_API_TOKEN in Secrets
 # Returns (path, error)
 # -----------------------
 def generate_audio_hf_inference(text):
     if not HF_API_TOKEN:
-        return "", "HF_API_TOKEN not configured for fallback TTS."
     hf_url = f"https://api-inference.huggingface.co/models/{HF_TTS_MODEL}"
     headers = {"Authorization": f"Bearer {HF_API_TOKEN}"}
@@ -219,22 +143,6 @@ def generate_audio_hf_inference(text):
             body = resp.text
         return "", f"HuggingFace TTS error {resp.status_code}: {body}"
-# -----------------------
-# Combined audio generator: ElevenLabs -> HuggingFace fallback
-# -----------------------
-def generate_audio_with_fallback(text):
-    # Try ElevenLabs first
-    if ELEVENLABS_API_KEY:
-        path, err = generate_audio_elevenlabs_http(text)
-        if path:
-            return path, ""
-        print("ElevenLabs failed, will try HuggingFace fallback. reason:", err)
-    # Try HF fallback
-    path, err = generate_audio_hf_inference(text)
-    if path:
-        return path, ""
-    return "", err or "All TTS providers failed."
 # -----------------------
 # Convert memory -> messages list for Gradio
 # -----------------------
@@ -250,7 +158,7 @@ def convert_memory_to_messages(history):
 # Returns (messages_list, audio_path, error)
 # -----------------------
 def process_user_message(user_message):
-    # 1) generate text (robust)
     text, gen_err = generate_text_with_gemini(user_message)
     if gen_err:
         memory.add("user", user_message)
@@ -262,10 +170,10 @@ def process_user_message(user_message):
     memory.add("user", user_message)
     memory.add("bot", text)
-    # 3) generate audio with fallback
-    audio_path, audio_err = generate_audio_with_fallback(text)
     if audio_err:
-        print("Audio generation error (all fallbacks):", audio_err)
     return convert_memory_to_messages(memory.history), audio_path or "", audio_err or ""
@@ -273,7 +181,7 @@ def process_user_message(user_message):
 # Gradio UI (Blocks) with debug UI
 # -----------------------
 with gr.Blocks() as demo:
-    gr.Markdown("## 🤖 Gemini + TTS Chatbot (ElevenLabs → HuggingFace fallback)\n\nAudio shown if produced.")
     chatbot = gr.Chatbot()
     with gr.Row():
         txt = gr.Textbox(show_label=False, placeholder="Type your message and press Enter")
@@ -284,7 +192,6 @@ with gr.Blocks() as demo:
     def submit_message(message):
         messages, audio_path, err = process_user_message(message)
         if audio_path:
-            # success: show audio and show path in debug box
             debug_msg = f"Audio saved: {audio_path}"
             return messages, gr.update(value=audio_path, visible=True), gr.update(value=debug_msg, visible=True)
         elif err:

 # Config / Secrets
 # -----------------------
 GEMINI_API_KEY = os.environ.get("GEMINI_API_KEY")
+HF_API_TOKEN = os.environ.get("HF_API_TOKEN")  # required for TTS
+HF_TTS_MODEL = os.environ.get("HF_TTS_MODEL", "microsoft/speecht5_tts")  # default fallback HF model
 AUDIO_TMP_DIR = "/tmp"
 if not GEMINI_API_KEY:
     raise RuntimeError("Missing GEMINI_API_KEY in environment. Add it to HF Space Secrets as GEMINI_API_KEY.")
+if not HF_API_TOKEN:
+    # we'll still run text-only, but audio will fail until HF_API_TOKEN is set
+    print("Warning: HF_API_TOKEN not set. Audio will be unavailable until set in Space Secrets.")
 # Configure Gemini
 genai.configure(api_key=GEMINI_API_KEY)
 gemini_model = genai.GenerativeModel("gemini-2.5-flash")
 memory = SimpleMemory(max_messages=40)
 # -----------------------
+# Prompt template
 # -----------------------
 PROMPT_TEMPLATE = """You are a helpful assistant.
 {chat_history}
         return None, f"Gemini error: {repr(efinal)}"
 # -----------------------
+# Hugging Face Inference API TTS
 # Returns (path, error)
 # -----------------------
 def generate_audio_hf_inference(text):
     if not HF_API_TOKEN:
+        return "", "HF_API_TOKEN not configured for TTS."
     hf_url = f"https://api-inference.huggingface.co/models/{HF_TTS_MODEL}"
     headers = {"Authorization": f"Bearer {HF_API_TOKEN}"}
             body = resp.text
         return "", f"HuggingFace TTS error {resp.status_code}: {body}"
 # -----------------------
 # Convert memory -> messages list for Gradio
 # -----------------------
 # Returns (messages_list, audio_path, error)
 # -----------------------
 def process_user_message(user_message):
+    # 1) generate text
     text, gen_err = generate_text_with_gemini(user_message)
     if gen_err:
         memory.add("user", user_message)
     memory.add("user", user_message)
     memory.add("bot", text)
+    # 3) generate audio via Hugging Face
+    audio_path, audio_err = generate_audio_hf_inference(text)
     if audio_err:
+        print("Audio generation error (HF):", audio_err)
     return convert_memory_to_messages(memory.history), audio_path or "", audio_err or ""
 # Gradio UI (Blocks) with debug UI
 # -----------------------
 with gr.Blocks() as demo:
+    gr.Markdown("## 🤖 Gemini + Hugging Face TTS Chatbot\n\nAudio generated using Hugging Face Inference API.")
     chatbot = gr.Chatbot()
     with gr.Row():
         txt = gr.Textbox(show_label=False, placeholder="Type your message and press Enter")
     def submit_message(message):
         messages, audio_path, err = process_user_message(message)
         if audio_path:
             debug_msg = f"Audio saved: {audio_path}"
             return messages, gr.update(value=audio_path, visible=True), gr.update(value=debug_msg, visible=True)
         elif err: