Spaces:

bilulu
/

Project-gemini-voicebot

Runtime error

App Files Files Community

bilulu commited on Jul 19, 2025

Commit

2130d3f

verified ·

1 Parent(s): 2567597

Update app.py

Browse files

Files changed (1) hide show

app.py +12 -11

app.py CHANGED Viewed

@@ -1,18 +1,17 @@
 import gradio as gr
 import torch
 import soundfile as sf
-import numpy as np
 from speechbrain.pretrained import EncoderDecoderASR, Tacotron2, HIFIGAN
 import google.generativeai as genai
 import os
 from dotenv import load_dotenv
-# Load API key from .env
 load_dotenv()
 genai.configure(api_key=os.getenv("GEMINI_API_KEY"))
-# Load Gemini model
-gemini = genai.GenerativeModel("gemini-pro")
 # Load SpeechBrain models
 asr_model = EncoderDecoderASR.from_hparams(
@@ -28,38 +27,40 @@ hifigan = HIFIGAN.from_hparams(
     savedir="tmp_hifigan"
 )
 def voice_agent(audio_path):
     if audio_path is None:
-        return "No audio received.", None
     try:
-        # Transcribe
         user_input = asr_model.transcribe_file(audio_path)
         # Gemini response
         gemini_response = gemini.generate_content(user_input)
         reply_text = gemini_response.text.strip()
-        # Convert to speech
         mel_output, _, _ = tacotron2.encode_text(reply_text)
         waveform = hifigan.decode_batch(mel_output).squeeze()
         sf.write("reply.wav", waveform.numpy(), 22050)
         return reply_text, "reply.wav"
     except Exception as e:
         return f"❌ Error: {str(e)}", None
-# Gradio Interface
 iface = gr.Interface(
     fn=voice_agent,
-    inputs=gr.Audio(type="filepath", label="🎙️ Upload or Record Your Voice"),
     outputs=[
         gr.Text(label="🤖 Gemini's Reply"),
         gr.Audio(label="🔊 AI Voice Reply")
     ],
-    title="🧠 SpeechBrain + Gemini Voice AI Agent",
-    description="Ask anything by voice! Get smart replies via Google Gemini and hear them using SpeechBrain TTS.",
     live=True
 )

 import gradio as gr
 import torch
 import soundfile as sf
 from speechbrain.pretrained import EncoderDecoderASR, Tacotron2, HIFIGAN
 import google.generativeai as genai
 import os
 from dotenv import load_dotenv
+# Load API key
 load_dotenv()
 genai.configure(api_key=os.getenv("GEMINI_API_KEY"))
+# Correct model name for Gemini
+gemini = genai.GenerativeModel("models/gemini-1.5-flash")  # You can also try "models/gemini-1.5-pro" if needed
 # Load SpeechBrain models
 asr_model = EncoderDecoderASR.from_hparams(
     savedir="tmp_hifigan"
 )
+# Voice Agent Function
 def voice_agent(audio_path):
     if audio_path is None:
+        return "❌ No audio received.", None
     try:
+        # Transcribe speech
         user_input = asr_model.transcribe_file(audio_path)
         # Gemini response
         gemini_response = gemini.generate_content(user_input)
         reply_text = gemini_response.text.strip()
+        # Convert reply to speech
         mel_output, _, _ = tacotron2.encode_text(reply_text)
         waveform = hifigan.decode_batch(mel_output).squeeze()
         sf.write("reply.wav", waveform.numpy(), 22050)
         return reply_text, "reply.wav"
     except Exception as e:
         return f"❌ Error: {str(e)}", None
+# Gradio UI
 iface = gr.Interface(
     fn=voice_agent,
+    inputs=gr.Audio(type="filepath", label="🎙️ Record or Upload Your Voice"),
     outputs=[
         gr.Text(label="🤖 Gemini's Reply"),
         gr.Audio(label="🔊 AI Voice Reply")
     ],
+    title="🧠 Voice AI Agent: SpeechBrain + Gemini",
+    description="Talk to the AI! Free voice assistant using SpeechBrain + Gemini. Entirely open-source and runs on Hugging Face.",
     live=True
 )