Spaces:

maria355
/

VoiceVision-Creative-AI

Sleeping

App Files Files Community

maria355 commited on Sep 14, 2025

Commit

7d5a6b7

verified ·

1 Parent(s): 88b7e1a

Update app.py

Browse files

Files changed (1) hide show

app.py +110 -43

app.py CHANGED Viewed

@@ -10,10 +10,26 @@ import json
 from datetime import datetime
 import time
-# Hugging Face imports
-from transformers import pipeline, AutoProcessor, AutoModelForSpeechSeq2Seq
-import google.generativeai as genai
-from st_audiorec import st_audiorec
 # Configure page
 st.set_page_config(
@@ -39,6 +55,10 @@ def load_models():
     """Load models efficiently"""
     global whisper_model, text_generator
     if whisper_model is None:
         try:
             # Use the smallest Whisper model for speed
@@ -50,25 +70,33 @@ def load_models():
             )
         except Exception as e:
             st.error(f"Error loading Whisper: {e}")
     if text_generator is None:
         try:
             # Use a lightweight text generation model
             text_generator = pipeline(
                 "text-generation",
-                model="microsoft/DialoGPT-small",  # Smaller model
                 device=-1,  # Force CPU
                 max_length=150,
                 do_sample=True,
                 temperature=0.7
             )
         except Exception as e:
-            st.error(f"Error loading text generator: {e}")
 def setup_gemini():
     """Setup Gemini API if available"""
     try:
-        api_key = os.getenv("GEMINI_API_KEY") or st.secrets.get("GEMINI_API_KEY", "")
         if api_key:
             genai.configure(api_key=api_key)
             return True
@@ -79,7 +107,7 @@ def setup_gemini():
 def transcribe_audio_simple(audio_file):
     """Simple audio transcription"""
     try:
-        if whisper_model is None:
             return "Error: Speech recognition not available"
         # Transcribe using pipeline
@@ -91,6 +119,9 @@ def transcribe_audio_simple(audio_file):
 def generate_content_with_gemini(prompt):
     """Generate content using Gemini"""
     try:
         model = genai.GenerativeModel('gemini-pro')
         response = model.generate_content(f"""
@@ -106,10 +137,12 @@ def generate_content_with_gemini(prompt):
         """)
         return response.text
     except Exception as e:
-        return f"Error generating content: {e}"
 def generate_content_offline(prompt):
-    """Generate content using free models"""
     content = {
         "taglines": [
             f"Experience {prompt} like never before",
@@ -128,7 +161,13 @@ def generate_content_offline(prompt):
             f"Futuristic concept art of {prompt}, digital art, high quality, detailed"
         ]
     }
-    return content
 def generate_image_with_api(prompt):
     """Generate image using free API"""
@@ -137,12 +176,17 @@ def generate_image_with_api(prompt):
         api_url = "https://api-inference.huggingface.co/models/stabilityai/stable-diffusion-2-1"
         headers = {"Authorization": f"Bearer {os.getenv('HF_TOKEN', '')}"}
-        response = requests.post(api_url, headers=headers, json={"inputs": prompt})
         if response.status_code == 200:
             image = Image.open(io.BytesIO(response.content))
             return image
         else:
             return None
     except Exception as e:
         st.error(f"Image generation error: {e}")
@@ -198,22 +242,28 @@ def main():
     st.header("🎤 Input Your Idea")
     # Tabs for different input methods
-    tab1, tab2, tab3 = st.tabs(["🎙️ Voice", "📁 Upload", "✍️ Text"])
-    with tab1:
-        st.info("Record your voice to generate content ideas")
-        # Audio recorder
-        wav_audio_data = st_audiorec()
-        if wav_audio_data is not None:
-            st.success("🎉 Audio recorded!")
-            st.audio(wav_audio_data, format='audio/wav')
-            if st.button("🔄 Convert to Text", key="transcribe_btn"):
-                st.session_state.processing = True
-                st.rerun()
     with tab2:
         uploaded_file = st.file_uploader(
             "Upload audio file",
@@ -227,32 +277,41 @@ def main():
                 st.session_state.processing = True
                 # Process uploaded file
                 with st.spinner("Converting speech to text..."):
-                    load_models()  # Load only when needed
-                    transcription = transcribe_audio_simple(uploaded_file)
-                    st.session_state.transcription = transcription
                 st.session_state.processing = False
                 st.rerun()
     with tab3:
         user_input = st.text_area(
             "Type your idea or product description:",
-            placeholder="e.g., A smart fitness tracker that monitors sleep patterns",
             height=120
         )
         if user_input:
             st.session_state.transcription = user_input
     # Process audio transcription if needed
-    if st.session_state.processing and AUDIO_REC_AVAILABLE and 'wav_audio_data' in locals() and wav_audio_data is not None:
-        with st.spinner("🎯 Converting speech to text..."):
-            load_models()  # Load models only when needed
-            # Save audio to temp file for processing
-            with tempfile.NamedTemporaryFile(delete=False, suffix=".wav") as tmp_file:
-                tmp_file.write(wav_audio_data)
-                transcription = transcribe_audio_simple(tmp_file.name)
-                st.session_state.transcription = transcription
-                os.unlink(tmp_file.name)  # Clean up temp file
         st.session_state.processing = False
         st.rerun()
@@ -275,9 +334,8 @@ def main():
                     content_text = generate_content_with_gemini(st.session_state.transcription)
                     st.session_state.generated_content['text'] = content_text
                 else:
-                    content_dict = generate_content_offline(st.session_state.transcription)
-                    st.session_state.generated_content['structured'] = content_dict
-                    st.session_state.generated_content['text'] = format_content_display(content_dict)
             st.rerun()
     # Display generated content
@@ -303,6 +361,9 @@ def main():
                         if img:
                             st.image(img, caption="Generated Image", use_column_width=True)
                             # Download button
                             img_buffer = io.BytesIO()
                             img.save(img_buffer, format="PNG")
@@ -313,7 +374,7 @@ def main():
                                 mime="image/png"
                             )
                         else:
-                            st.warning("Image generation not available. Try again later.")
         else:
             # Simple prompt input for image generation
             img_prompt = st.text_input("Enter image description:",
@@ -323,6 +384,7 @@ def main():
                     img = generate_image_with_api(img_prompt)
                     if img:
                         st.image(img, caption="Generated Image", use_column_width=True)
         # Export section
         st.header("📥 Export Content")
@@ -379,6 +441,11 @@ Input: {st.session_state.transcription}
         **API Setup (Optional):**
         - Add `GEMINI_API_KEY` for enhanced text generation
         - Add `HF_TOKEN` for image generation
         """)
     # Footer

 from datetime import datetime
 import time
+# Import with error handling
+try:
+    from transformers import pipeline
+    TRANSFORMERS_AVAILABLE = True
+except ImportError:
+    TRANSFORMERS_AVAILABLE = False
+    st.error("Transformers not available")
+try:
+    import google.generativeai as genai
+    GENAI_AVAILABLE = True
+except ImportError:
+    GENAI_AVAILABLE = False
+try:
+    from st_audiorec import st_audiorec
+    AUDIO_REC_AVAILABLE = True
+except ImportError:
+    AUDIO_REC_AVAILABLE = False
+    st.warning("Audio recording not available")
 # Configure page
 st.set_page_config(
     """Load models efficiently"""
     global whisper_model, text_generator
+    if not TRANSFORMERS_AVAILABLE:
+        st.error("AI models not available")
+        return
     if whisper_model is None:
         try:
             # Use the smallest Whisper model for speed
             )
         except Exception as e:
             st.error(f"Error loading Whisper: {e}")
+            whisper_model = "error"
     if text_generator is None:
         try:
             # Use a lightweight text generation model
             text_generator = pipeline(
                 "text-generation",
+                model="microsoft/DialoGPT-small",
                 device=-1,  # Force CPU
                 max_length=150,
                 do_sample=True,
                 temperature=0.7
             )
         except Exception as e:
+            st.warning(f"Text generator not available: {e}")
+            text_generator = "error"
 def setup_gemini():
     """Setup Gemini API if available"""
+    if not GENAI_AVAILABLE:
+        return False
     try:
+        api_key = os.getenv("GEMINI_API_KEY")
+        if not api_key and hasattr(st, 'secrets'):
+            api_key = st.secrets.get("GEMINI_API_KEY", "")
         if api_key:
             genai.configure(api_key=api_key)
             return True
 def transcribe_audio_simple(audio_file):
     """Simple audio transcription"""
     try:
+        if whisper_model is None or whisper_model == "error":
             return "Error: Speech recognition not available"
         # Transcribe using pipeline
 def generate_content_with_gemini(prompt):
     """Generate content using Gemini"""
+    if not GENAI_AVAILABLE:
+        return generate_content_offline(prompt)
     try:
         model = genai.GenerativeModel('gemini-pro')
         response = model.generate_content(f"""
         """)
         return response.text
     except Exception as e:
+        st.warning(f"Gemini error: {e}. Using offline generation.")
+        return generate_content_offline(prompt)
 def generate_content_offline(prompt):
+    """Generate content using offline methods"""
+    # Create structured content
     content = {
         "taglines": [
             f"Experience {prompt} like never before",
             f"Futuristic concept art of {prompt}, digital art, high quality, detailed"
         ]
     }
+    # Format for display
+    formatted = format_content_display(content)
+    # Store both versions
+    st.session_state.generated_content['structured'] = content
+    return formatted
 def generate_image_with_api(prompt):
     """Generate image using free API"""
         api_url = "https://api-inference.huggingface.co/models/stabilityai/stable-diffusion-2-1"
         headers = {"Authorization": f"Bearer {os.getenv('HF_TOKEN', '')}"}
+        if not os.getenv('HF_TOKEN'):
+            st.warning("Add HF_TOKEN environment variable for image generation")
+            return None
+        response = requests.post(api_url, headers=headers, json={"inputs": prompt}, timeout=30)
         if response.status_code == 200:
             image = Image.open(io.BytesIO(response.content))
             return image
         else:
+            st.warning(f"Image API returned status {response.status_code}")
             return None
     except Exception as e:
         st.error(f"Image generation error: {e}")
     st.header("🎤 Input Your Idea")
     # Tabs for different input methods
+    if AUDIO_REC_AVAILABLE:
+        tab1, tab2, tab3 = st.tabs(["🎙️ Voice", "📁 Upload", "✍️ Text"])
+    else:
+        tab2, tab3 = st.tabs(["📁 Upload", "✍️ Text"])
+    # Voice tab (only if available)
+    if AUDIO_REC_AVAILABLE:
+        with tab1:
+            st.info("Record your voice to generate content ideas")
+            # Audio recorder
+            wav_audio_data = st_audiorec()
+            if wav_audio_data is not None:
+                st.success("🎉 Audio recorded!")
+                st.audio(wav_audio_data, format='audio/wav')
+                if st.button("🔄 Convert to Text", key="transcribe_btn"):
+                    st.session_state.processing = True
+                    st.rerun()
+    # Upload tab
     with tab2:
         uploaded_file = st.file_uploader(
             "Upload audio file",
                 st.session_state.processing = True
                 # Process uploaded file
                 with st.spinner("Converting speech to text..."):
+                    if TRANSFORMERS_AVAILABLE:
+                        load_models()
+                        transcription = transcribe_audio_simple(uploaded_file)
+                        st.session_state.transcription = transcription
+                    else:
+                        st.session_state.transcription = "Speech-to-text not available. Please use text input."
                 st.session_state.processing = False
                 st.rerun()
+    # Text tab
     with tab3:
         user_input = st.text_area(
             "Type your idea or product description:",
+            placeholder="e.g., A smart fitness tracker that monitors sleep patterns and provides personalized recommendations",
             height=120
         )
         if user_input:
             st.session_state.transcription = user_input
     # Process audio transcription if needed
+    if st.session_state.processing and AUDIO_REC_AVAILABLE:
+        # Check if wav_audio_data exists in the current scope
+        if 'wav_audio_data' in locals() and wav_audio_data is not None:
+            with st.spinner("🎯 Converting speech to text..."):
+                if TRANSFORMERS_AVAILABLE:
+                    load_models()
+                    # Save audio to temp file for processing
+                    with tempfile.NamedTemporaryFile(delete=False, suffix=".wav") as tmp_file:
+                        tmp_file.write(wav_audio_data)
+                        transcription = transcribe_audio_simple(tmp_file.name)
+                        st.session_state.transcription = transcription
+                        os.unlink(tmp_file.name)
+                else:
+                    st.session_state.transcription = "Speech recognition not available. Please use text input."
         st.session_state.processing = False
         st.rerun()
                     content_text = generate_content_with_gemini(st.session_state.transcription)
                     st.session_state.generated_content['text'] = content_text
                 else:
+                    content_text = generate_content_offline(st.session_state.transcription)
+                    st.session_state.generated_content['text'] = content_text
             st.rerun()
     # Display generated content
                         if img:
                             st.image(img, caption="Generated Image", use_column_width=True)
+                            # Store image for download
+                            st.session_state.generated_content['image'] = img
                             # Download button
                             img_buffer = io.BytesIO()
                             img.save(img_buffer, format="PNG")
                                 mime="image/png"
                             )
                         else:
+                            st.warning("Image generation not available. Check HF_TOKEN in settings.")
         else:
             # Simple prompt input for image generation
             img_prompt = st.text_input("Enter image description:",
                     img = generate_image_with_api(img_prompt)
                     if img:
                         st.image(img, caption="Generated Image", use_column_width=True)
+                        st.session_state.generated_content['image'] = img
         # Export section
         st.header("📥 Export Content")
         **API Setup (Optional):**
         - Add `GEMINI_API_KEY` for enhanced text generation
         - Add `HF_TOKEN` for image generation
+        **Current Status:**
+        - Transformers: {'✅ Available' if TRANSFORMERS_AVAILABLE else '❌ Not Available'}
+        - Audio Recording: {'✅ Available' if AUDIO_REC_AVAILABLE else '❌ Not Available'}
+        - Gemini AI: {'✅ Available' if gemini_available else '❌ Not Available'}
         """)
     # Footer