Spaces:

STARBORN
/

voice_agent_tutorial

Sleeping

App Files Files Community

STARBORN commited on 23 days ago

Commit

1a68b9a

verified ·

1 Parent(s): 8f6cad0

Update app.py

Browse files

import gradio as gr
import os
import numpy as np
import librosa
import asyncio
import edge_tts
import soundfile as sf
from groq import Groq
from fastrtc import WebRTC, ReplyOnPause, get_hf_turn_credentials

# Initialize Groq
client = Groq(api_key=os.environ.get("GROQ_API_KEY"))

async def text_to_speech_logic(text):
communicate = edge_tts.Communicate(text, "en-US-AndrewNeural")
await communicate.save("temp_op.mp3")
audio, sr = librosa.load("temp_op.mp3", sr=16000)
# FastRTC expects (channels, samples)
if len(audio.shape) == 1:
audio = audio.reshape(1, -1)
return sr, audio

def process_audio(audio: tuple[int, np.ndarray]):
sr, y = audio
sf.write("input.wav", y.T, sr) # Transpose for standard wav format

with open("input.wav", "rb") as file:
transcription = client.audio.transcriptions.create(
file=("input.wav", file.read()),
model="whisper-large-v3-turbo",
)

response = client.chat.completions.create(
model="llama-3.3-70b-versatile",
messages=[
{"role": "system", "content": "You are a concise voice assistant. 1-2 sentences only."},
{"role": "user", "content": transcription.text}
]
)
reply_text = response.choices[0].message.content
return asyncio.run(text_to_speech_logic(reply_text))

# Manual UI Build
with gr.Blocks() as demo:
gr.Markdown("# 🎙️ Voice Agent Live")
gr.Markdown("Click the button below to start talking.")

# We use the WebRTC component directly for maximum compatibility
webrtc_comp = WebRTC(
label="Voice Chat",
mode="send-receive",
modality="audio",
rtc_configuration=get_hf_turn_credentials()
)

# Connect the logic
webrtc_comp.stream(
fn=ReplyOnPause(process_audio),
inputs=[webrtc_comp],
outputs=[webrtc_comp]
)

if __name__ == "__main__":
demo.launch()

Files changed (1) hide show

app.py +2 -49

app.py CHANGED Viewed

@@ -1,50 +1,3 @@
-import gradio as gr
-import os
-import numpy as np
-import librosa
-import asyncio
-import edge_tts
-import soundfile as sf
-from groq import Groq
-from fastrtc import Stream, ReplyOnPause, get_hf_turn_credentials
-# Initialize Groq
-client = Groq(api_key=os.environ.get("GROQ_API_KEY"))
-async def text_to_speech_stream(text):
-    communicate = edge_tts.Communicate(text, "en-US-AndrewNeural")
-    await communicate.save("temp_op.mp3")
-    audio, sr = librosa.load("temp_op.mp3", sr=16000)
-    return sr, audio
-def process_audio(audio: tuple[int, np.ndarray]):
-    sr, y = audio
-    sf.write("input.wav", y, sr)
-    with open("input.wav", "rb") as file:
-        transcription = client.audio.transcriptions.create(
-            file=("input.wav", file.read()),
-            model="whisper-large-v3-turbo",
-        )
-    response = client.chat.completions.create(
-        model="llama-3.3-70b-versatile",
-        messages=[
-            {"role": "system", "content": "You are a concise voice assistant. 1-2 sentences only."},
-            {"role": "user", "content": transcription.text}
-        ]
-    )
-    reply_text = response.choices[0].message.content
-    return asyncio.run(text_to_speech_stream(reply_text))
-stream = Stream(
-    handler=ReplyOnPause(process_audio),
-    modality="audio",
-    mode="send-receive",
-    rtc_configuration=get_hf_turn_credentials()
-)
-with gr.Blocks() as demo:
-    gr.Markdown("# 🎙️ Voice Agent Live")
-    stream.ui.launch()
 demo.launch()


1	+ im
2	+















































3	demo.launch()