Spaces:

quentinbch
/

Voice_Assistant

Sleeping

App Files Files Community

quentinbch commited on Dec 6, 2025

Commit

b70f4c1

verified ·

1 Parent(s): a4c158d

Update app.py

Browse files

Files changed (1) hide show

app.py +104 -117

app.py CHANGED Viewed

@@ -1,146 +1,133 @@
-from transformers import pipeline
 import torch
-from transformers.pipelines.audio_utils import ffmpeg_microphone_live
-from huggingface_hub import HfFolder, InferenceClient
-import requests
-from transformers import SpeechT5Processor, SpeechT5ForTextToSpeech, SpeechT5HifiGan
 from datasets import load_dataset
-import sounddevice as sd
-import sys
-import os
-from dotenv import load_dotenv
 import gradio as gr
-import warnings
-load_dotenv()
 HF_TOKEN = os.getenv("HF_TOKEN")
-warnings.filterwarnings("ignore",
-                        message="At least one mel filter has all zero values.*",
-                        category=UserWarning)
-device = "cuda:0" if torch.cuda.is_available() else "cpu"
-classifier = pipeline(
-    "audio-classification",
-    model="MIT/ast-finetuned-speech-commands-v2",
-    device=device
-)
-def launch_fn(wake_word="marvin", prob_threshold=0.5, chunk_length_s=2.0, stream_chunk_s=0.25, debug=False):
-    if wake_word not in classifier.model.config.label2id.keys():
-        raise ValueError(
-            f"Wake word {wake_word} not in set of valid class labels, pick a wake word in the set {classifier.model.config.label2id.keys()}."
-        )
-    sampling_rate = classifier.feature_extractor.sampling_rate
-    mic = ffmpeg_microphone_live(
-        sampling_rate=sampling_rate,
-        chunk_length_s=chunk_length_s,
-        stream_chunk_s=stream_chunk_s,
-    )
-    print("Listening for wake word...")
-    for prediction in classifier(mic):
-        prediction = prediction[0]
-        if debug:
-            print(prediction)
-        if prediction["label"] == wake_word:
-            if prediction["score"] > prob_threshold:
-                return True
 transcriber = pipeline(
-    "automatic-speech-recognition", model="openai/whisper-base.en", device=device
 )
-def transcribe(chunk_length_s=5.0, stream_chunk_s=1.0):
-    sampling_rate = transcriber.feature_extractor.sampling_rate
-    mic = ffmpeg_microphone_live(
-        sampling_rate=sampling_rate,
-        chunk_length_s=chunk_length_s,
-        stream_chunk_s=stream_chunk_s,
-    )
-    print("Start speaking...")
-    for item in transcriber(mic, generate_kwargs={"max_new_tokens": 128}):
-        sys.stdout.write("\033[K")
-        print(item["text"], end="\r")
-        if not item["partial"][0]:
-            break
-    return item["text"]
 client = InferenceClient(
     provider="fireworks-ai",
     api_key=HF_TOKEN
 )
-def query(text, model_id="meta-llama/Llama-3.1-8B-Instruct"):
     try:
         completion = client.chat.completions.create(
-            model=model_id,
-            messages=[{"role": "user", "content": text}]
         )
         return completion.choices[0].message.content
     except Exception as e:
-        print(f"Erreur: {str(e)}")
-        return None
-processor = SpeechT5Processor.from_pretrained("microsoft/speecht5_tts")
-model = SpeechT5ForTextToSpeech.from_pretrained("microsoft/speecht5_tts").to(device)
-vocoder = SpeechT5HifiGan.from_pretrained("microsoft/speecht5_hifigan").to(device)
-embeddings_dataset = load_dataset("Matthijs/cmu-arctic-xvectors", split="validation")
-speaker_embeddings = torch.tensor(embeddings_dataset[7306]["xvector"]).unsqueeze(0)
-def synthesise(text):
-    input_ids = processor(text=text, return_tensors="pt")["input_ids"]
-    try:
         speech = model.generate_speech(
-            input_ids.to(device),
-            speaker_embeddings.to(device),
             vocoder=vocoder
         )
-        return speech.cpu()
-    except Exception as e:
-        print(f"Erreur lors de la synthèse vocale : {e}")
-        return None
-# launch_fn(debug=True)
-# transcription = transcribe()
-# response = query(transcription)
-# audio = synthesise(response)
-#
-# sd.play(audio.numpy(), 16000)
-# sd.wait()
-# Interface Gradio
-def assistant_vocal_interface():
-    launch_fn(debug=True)
-    transcription = transcribe()
-    response = query(transcription)
-    audio = synthesise(response)
-    return transcription, response, (16000, audio.numpy())
-with gr.Blocks(title="Assistant Vocal") as demo:
-    gr.Markdown("## Assistant vocal : détection, transcription, génération et synthèse")
-    start_btn = gr.Button("Démarrer l'assistant")
-    transcription_box = gr.Textbox(label="Transcription")
-    response_box = gr.Textbox(label="Réponse IA")
-    audio_output = gr.Audio(label="Synthèse vocale", type="numpy", autoplay=True)
-    start_btn.click(
-        assistant_vocal_interface,
-        inputs=[],
         outputs=[transcription_box, response_box, audio_output]
     )
-demo.launch(share=True)

 import torch
+from transformers import pipeline, SpeechT5Processor, SpeechT5ForTextToSpeech, SpeechT5HifiGan
+from huggingface_hub import InferenceClient
 from datasets import load_dataset
 import gradio as gr
+import os
+import numpy as np
+# Récupération du token (Assure-toi de l'avoir défini dans les Secrets du Space)
 HF_TOKEN = os.getenv("HF_TOKEN")
+# Détection du hardware (GPU ou CPU)
+device = "cuda" if torch.cuda.is_available() else "cpu"
+print(f"Device utilisé : {device}")
+# --- 1. Modèles de Transcription (ASR) ---
+# Utilisation de distil-whisper pour plus de rapidité sur CPU/GPU léger
 transcriber = pipeline(
+    "automatic-speech-recognition",
+    model="openai/whisper-base.en",
+    device=device
 )
+# --- 2. Client LLM (Intelligence) ---
 client = InferenceClient(
     provider="fireworks-ai",
     api_key=HF_TOKEN
 )
+# --- 3. Synthèse Vocale (TTS) ---
+processor = SpeechT5Processor.from_pretrained("microsoft/speecht5_tts")
+model = SpeechT5ForTextToSpeech.from_pretrained("microsoft/speecht5_tts").to(device)
+vocoder = SpeechT5HifiGan.from_pretrained("microsoft/speecht5_hifigan").to(device)
+# Chargement du speaker embedding (voix)
+embeddings_dataset = load_dataset("Matthijs/cmu-arctic-xvectors", split="validation")
+speaker_embeddings = torch.tensor(embeddings_dataset[7306]["xvector"]).unsqueeze(0).to(device)
+def transcribe(audio_path):
+    """Convertit l'audio (chemin de fichier) en texte."""
+    if audio_path is None:
+        return ""
+    # Whisper gère directement les chemins de fichiers envoyés par Gradio
+    text = transcriber(audio_path)["text"]
+    return text
+def query_llm(text):
+    """Envoie le texte au LLM."""
+    if not text:
+        return "Je n'ai rien entendu."
     try:
+        # Prompt système pour guider le modèle à être concis (mieux pour le TTS)
+        messages = [
+            {"role": "system", "content": "You are a helpful vocal assistant. Keep your answers short and concise suitable for speech synthesis."},
+            {"role": "user", "content": text}
+        ]
         completion = client.chat.completions.create(
+            model="accounts/fireworks/models/llama-v3p1-8b-instruct", # ID correct pour Fireworks via HF Client
+            messages=messages,
+            max_tokens=150 # Limite pour éviter une synthèse trop longue
         )
         return completion.choices[0].message.content
     except Exception as e:
+        return f"Erreur LLM: {str(e)}"
+def synthesise(text):
+    """Convertit le texte en audio."""
+    if not text:
+        return None
+    inputs = processor(text=text, return_tensors="pt")
+    # Gestion de la taille du texte (SpeechT5 a une limite)
+    if inputs["input_ids"].shape[1] > 600:
+        text = text[:500] + "..." # Tronquer si trop long
+        inputs = processor(text=text, return_tensors="pt")
+    input_ids = inputs["input_ids"].to(device)
+    with torch.no_grad():
         speech = model.generate_speech(
+            input_ids,
+            speaker_embeddings,
             vocoder=vocoder
         )
+    # Retourne (Sampling Rate, Audio Array)
+    return (16000, speech.cpu().numpy())
+def process_pipeline(audio_path):
+    """Fonction principale appelée par Gradio"""
+    if audio_path is None:
+        return "Aucun audio détecté", "...", None
+    # 1. Transcription
+    user_text = transcribe(audio_path)
+    print(f"User: {user_text}")
+    # 2. Réflexion (LLM)
+    ai_response = query_llm(user_text)
+    print(f"AI: {ai_response}")
+    # 3. Synthèse (TTS)
+    audio_result = synthesise(ai_response)
+    return user_text, ai_response, audio_result
+# --- Interface Gradio ---
+with gr.Blocks(title="Assistant Vocal AI") as demo:
+    gr.Markdown("## 🎙️ Assistant Vocal Llama & Whisper")
+    gr.Markdown("Parlez dans le micro, l'IA va transcrire, réfléchir et vous répondre oralement.")
+    with gr.Row():
+        with gr.Column():
+            audio_input = gr.Audio(sources=["microphone"], type="filepath", label="Votre voix")
+            submit_btn = gr.Button("Envoyer", variant="primary")
+        with gr.Column():
+            transcription_box = gr.Textbox(label="Ce que j'ai entendu")
+            response_box = gr.Textbox(label="Réponse textuelle")
+            audio_output = gr.Audio(label="Réponse vocale", autoplay=True)
+    submit_btn.click(
+        fn=process_pipeline,
+        inputs=[audio_input],
         outputs=[transcription_box, response_box, audio_output]
     )
+if __name__ == "__main__":
+    demo.launch()