Spaces:

pratik-250620
/

MultiModal-Coherence-AI

Sleeping

App Files Files Community

pratik-250620 commited on Feb 20

Commit

59ba68f

verified ·

1 Parent(s): 81f27f8

Upload folder using huggingface_hub

Browse files

Files changed (2) hide show

app.py +36 -62
requirements.txt +1 -0

app.py CHANGED Viewed

@@ -1478,51 +1478,48 @@ def generate_image(prompt: str) -> dict:
     return retrieve_image(prompt)
-def generate_audio(prompt: str) -> dict:
-    """Generate ambient audio via ElevenLabs SFX → CLAP retrieval fallback."""
-    key = os.environ.get("ELEVENLABS_API_KEY", "")
-    if not key:
-        logger.warning("ELEVENLABS_API_KEY not set — skipping SFX generation")
-        result = retrieve_audio(prompt)
-        result["generation_unavailable"] = True
-        result["sfx_error"] = "ELEVENLABS_API_KEY not set"
-        return result
-    # --- ElevenLabs Sound Effects (actual ambient sounds, NOT speech) ---
     try:
-        logger.info("ElevenLabs SFX: calling API with key=%s...", key[:8])
-        resp = _requests.post(
-            ELEVENLABS_SFX_URL,
-            headers={
-                "xi-api-key": key,
-                "Content-Type": "application/json",
-            },
-            json={
-                "text": prompt,
-                "duration_seconds": 8.0,
-                "prompt_influence": 0.5,
-            },
-            timeout=120,
         )
-        logger.info("ElevenLabs SFX: HTTP %s, %d bytes", resp.status_code, len(resp.content))
-        if resp.status_code == 200 and len(resp.content) > 1000:
-            tmp = tempfile.NamedTemporaryFile(suffix=".mp3", delete=False, dir="/tmp")
-            tmp.write(resp.content)
-            tmp.flush()
-            return {
-                "path": tmp.name, "backend": "generative",
-                "model": "ElevenLabs-SFX", "failed": False,
-            }
-        err = f"HTTP {resp.status_code}: {resp.text[:200]}"
-        logger.warning("ElevenLabs SFX failed: %s", err)
     except Exception as e:
-        err = str(e)
-        logger.warning("ElevenLabs SFX exception: %s", err)
     # --- Fallback: CLAP retrieval ---
     result = retrieve_audio(prompt)
     result["generation_unavailable"] = True
-    result["sfx_error"] = err
     return result
@@ -1664,7 +1661,7 @@ def main():
         }
         if backend == "generative":
             img_info = "Pollinations FLUX / Stable Horde (free)"
-            aud_info = "ElevenLabs SFX / CLAP retrieval (free)"
         else:
             img_info = "CLIP retrieval (57 images)"
             aud_info = "CLAP retrieval (104 clips)"
@@ -1681,29 +1678,6 @@ def main():
             f'CLAP HTSAT-unfused (coherence eval)'
             f'</div>', unsafe_allow_html=True)
-        # --- Audio API diagnostic ---
-        with st.expander("Audio API diagnostic"):
-            el_key = os.environ.get("ELEVENLABS_API_KEY", "")
-            if el_key:
-                st.success(f"ELEVENLABS_API_KEY set ({el_key[:8]}...)")
-                if st.button("Test ElevenLabs SFX"):
-                    try:
-                        test_resp = _requests.post(
-                            ELEVENLABS_SFX_URL,
-                            headers={"xi-api-key": el_key, "Content-Type": "application/json"},
-                            json={"text": "gentle rain on leaves", "duration_seconds": 3, "prompt_influence": 0.5},
-                            timeout=60,
-                        )
-                        if test_resp.status_code == 200 and len(test_resp.content) > 500:
-                            st.success(f"OK! {len(test_resp.content)} bytes generated")
-                            st.audio(test_resp.content, format="audio/mp3")
-                        else:
-                            st.error(f"HTTP {test_resp.status_code}: {test_resp.text[:300]}")
-                    except Exception as e:
-                        st.error(f"Error: {e}")
-            else:
-                st.error("ELEVENLABS_API_KEY is NOT set!")
     # Apply CSS based on mode
     if kid_mode:
         st.markdown(KID_CSS, unsafe_allow_html=True)      # kid theme (includes all needed overrides)

     return retrieve_image(prompt)
+def _stable_audio_generate(prompt: str, duration: float = 8.0) -> Optional[str]:
+    """Generate ambient audio via Stable Audio Open (free Gradio Space, no API key).
+    Returns path to generated WAV file or None on failure.
+    """
     try:
+        from gradio_client import Client as GradioClient
+        client = GradioClient("artificialguybr/Stable-Audio-Open-Zero", verbose=False)
+        result = client.predict(
+            prompt=prompt,
+            seconds_total=duration,
+            steps=50,
+            cfg_scale=7,
+            api_name="/predict",
         )
+        if result and os.path.exists(result):
+            logger.info("Stable Audio generated: %s (%d bytes)", result, os.path.getsize(result))
+            return result
+        logger.warning("Stable Audio returned invalid path: %s", result)
     except Exception as e:
+        logger.warning("Stable Audio failed: %s", e)
+    return None
+def generate_audio(prompt: str) -> dict:
+    """Generate ambient audio via Stable Audio Open → CLAP retrieval fallback.
+    Uses a free GPU-powered Gradio Space (no API key needed) to generate
+    actual ambient sounds from text prompts.
+    """
+    # --- Attempt 1: Stable Audio Open (free, GPU-powered, real ambient audio) ---
+    path = _stable_audio_generate(prompt, duration=8.0)
+    if path:
+        return {
+            "path": path, "backend": "generative",
+            "model": "Stable-Audio-Open", "failed": False,
+        }
     # --- Fallback: CLAP retrieval ---
+    logger.info("Audio generation unavailable — using CLAP retrieval")
     result = retrieve_audio(prompt)
     result["generation_unavailable"] = True
     return result
         }
         if backend == "generative":
             img_info = "Pollinations FLUX / Stable Horde (free)"
+            aud_info = "Stable Audio Open / CLAP retrieval (free)"
         else:
             img_info = "CLIP retrieval (57 images)"
             aud_info = "CLAP retrieval (104 clips)"
             f'CLAP HTSAT-unfused (coherence eval)'
             f'</div>', unsafe_allow_html=True)
     # Apply CSS based on mode
     if kid_mode:
         st.markdown(KID_CSS, unsafe_allow_html=True)      # kid theme (includes all needed overrides)

requirements.txt CHANGED Viewed

@@ -13,3 +13,4 @@ pillow>=10.0.0
 pydantic>=2.0.0
 pydantic-settings>=2.0.0
 requests>=2.28.0

 pydantic>=2.0.0
 pydantic-settings>=2.0.0
 requests>=2.28.0
+gradio_client>=1.0.0