Spaces:

kamal45
/

Real-Time-Chatbot

Sleeping

App Files Files Community

kamal45 commited on Jan 27, 2025

Commit

c0d86c1

verified ·

1 Parent(s): 4c4f108

Update app.py

Browse files

Files changed (1) hide show

app.py +15 -7

app.py CHANGED Viewed

@@ -1,10 +1,11 @@
 import os
 import torch
 import whisper
 from gtts import gTTS
 import gradio as gr
-from groq import Groq  # Assuming Groq is installed and accessible
 # Load the Whisper model
 device = "cuda" if torch.cuda.is_available() else "cpu"
@@ -14,14 +15,21 @@ GROQ_API_KEY ="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"
 Client = Groq(api_key=GROQ_API_KEY)
-# Set your Groq API key
 os.environ["GROQ_API_KEY"] = "your_groq_api_key_here"
 client = Groq(api_key=os.environ.get("GROQ_API_KEY"))
 # Function to transcribe audio using Whisper
-def transcribe(audio_path):
     try:
         result = model.transcribe(audio_path)
         return result["text"]
     except Exception as e:
         return f"Error during transcription: {e}"
@@ -48,8 +56,8 @@ def text_to_speech(text):
         return f"Error during text-to-speech conversion: {e}"
 # Combined function for processing audio input and generating audio output
-def process_audio(audio_path):
-    transcription = transcribe(audio_path)
     if "Error" in transcription:
         return transcription, None, None
@@ -68,7 +76,7 @@ with gr.Blocks() as app:
     gr.Markdown("## Real-Time Voice-to-Voice Chatbot")
     with gr.Row():
         with gr.Column():
-            audio_input = gr.Audio(type="filepath", label="Speak", interactive=True)
         with gr.Column():
             transcription_output = gr.Textbox(label="Transcription (Text)", lines=2)
             response_output = gr.Textbox(label="Response (LLM Text)", lines=2)

 import os
 import torch
 import whisper
 from gtts import gTTS
 import gradio as gr
+from groq import Groq
+import numpy as np
+import io
 # Load the Whisper model
 device = "cuda" if torch.cuda.is_available() else "cpu"
 Client = Groq(api_key=GROQ_API_KEY)
+# Set your Groq API key (replace with your actual key or set it in the environment)
 os.environ["GROQ_API_KEY"] = "your_groq_api_key_here"
 client = Groq(api_key=os.environ.get("GROQ_API_KEY"))
 # Function to transcribe audio using Whisper
+def transcribe(audio_data):
     try:
+        # Convert numpy array (audio) to bytes and save it as a temporary file
+        audio_path = "temp_audio.wav"
+        with open(audio_path, "wb") as f:
+            f.write(audio_data)
+        # Transcribe the saved audio file
         result = model.transcribe(audio_path)
+        os.remove(audio_path)  # Clean up the temporary file
         return result["text"]
     except Exception as e:
         return f"Error during transcription: {e}"
         return f"Error during text-to-speech conversion: {e}"
 # Combined function for processing audio input and generating audio output
+def process_audio(audio_data):
+    transcription = transcribe(audio_data)
     if "Error" in transcription:
         return transcription, None, None
     gr.Markdown("## Real-Time Voice-to-Voice Chatbot")
     with gr.Row():
         with gr.Column():
+            audio_input = gr.Audio(type="numpy", label="Speak", interactive=True)
         with gr.Column():
             transcription_output = gr.Textbox(label="Transcription (Text)", lines=2)
             response_output = gr.Textbox(label="Response (LLM Text)", lines=2)