Spaces:

Markuspierre
/

eaubot

Running

App Files Files Community

Markuspierre commited on Jan 20

Commit

edae299

verified ·

1 Parent(s): c67e8dd

Update asr-tts_service.py

Browse files

Files changed (1) hide show

asr-tts_service.py +41 -22

asr-tts_service.py CHANGED Viewed

@@ -7,9 +7,12 @@ import numpy as np
 import soundfile as sf
 import torch
 import google.generativeai as genai
 from flask import Flask, request, jsonify
 from transformers import pipeline, AutoTokenizer
 from parler_tts import ParlerTTSForConditionalGeneration
 from dotenv import load_dotenv
 # Charger les variables d'environnement
@@ -126,24 +129,15 @@ def smooth_concat(segments, sr, fade_ms=20):
 # --- Logique TTS et Traduction ---
 def generate_tts_optimized(text: str) -> str:
-    # Fixer la graine (Seed) pour que le timbre de voix soit constant
-    # La seed 98 donne souvent un grain très proche du fichier d'Orange
     torch.manual_seed(98)
-    # 1. Préparation du texte
     text = convert_digits_in_text(text)
-    # Découpage en morceaux de 100 caractères max pour éviter que le modèle s'essouffle
     chunks = split_by_sentences(text, max_chars=100)
     audio_segments = []
     for chunk in chunks:
         if not chunk.strip(): continue
-        # Ajout d'une ponctuation forcée pour une intonation propre
         full_chunk = chunk if chunk.endswith(('.', '!', '?')) else chunk + "."
         prompt_ids = tts_tokenizer(full_chunk, return_tensors="pt").input_ids.to(device)
         with torch.no_grad():
             audio = tts_model.generate(
                 input_ids=description_id,
@@ -153,23 +147,19 @@ def generate_tts_optimized(text: str) -> str:
                 temperature=1.0,
                 min_new_tokens=20
             )
         audio_np = audio.cpu().numpy().squeeze().astype(np.float32)
         if audio_np.size > 0:
             audio_segments.append(audio_np)
     if not audio_segments: return ""
-    # 2. Assemblage avec fondu enchaîné pour éviter les "clics"
     final_audio = smooth_concat(audio_segments, tts_model.config.sampling_rate)
     final_audio = normalize_audio(final_audio)
-    # 3. Encodage en Base64 pour votre interface
     buffer = io.BytesIO()
     sf.write(buffer, final_audio, tts_model.config.sampling_rate, format="WAV")
     buffer.seek(0)
     return "data:audio/wav;base64," + base64.b64encode(buffer.read()).decode()
 def french_to_wolof_with_gemini(text: str) -> str:
     prompt = f"""
         Tu es un traducteur expert en wolof travaillant pour la Sen'eau.
@@ -178,13 +168,12 @@ def french_to_wolof_with_gemini(text: str) -> str:
         Utilise un ton poli, professionnel et garde les termes techniques usuels (compteur, branchement, Assistante virtuelle ).
         Texte : {text}"""
     try:
         response = model_gemini.generate_content(prompt)
         return response.text.strip()
     except Exception as e:
         return "Naka ngeen def ! Man la ADAMA, seen Assistante virtuelle bu Sen'eau. Ma ngi fi ngir dimbali leen ci seeni laaj yépp yu jëm ci wàllu ndoxum naan ci Sénégal."
 def wolof_to_french_gemini(text: str) -> str:
     prompt = f"""
         Tu es un traducteur expert en français travaillant pour la Sen'eau.
@@ -214,25 +203,55 @@ def transcribe():
     data = np.asarray(data, dtype=np.float32)
     if data.ndim > 1: data = data.mean(axis=1)
-    # ASR Local
     wolof_text = asr(normalize_audio(data))["text"]
-    # Si l'ASR est quasi vide, on ne sollicite pas Gemini
     if len(wolof_text.strip()) < 2:
         return "Bonjour"
-    # Traduction Gemini
     french_text = wolof_to_french_gemini(wolof_text)
     return french_text
 @app.route("/tts", methods=["POST"])
 def tts():
     payload = request.get_json()
     if not payload or "text" not in payload: return jsonify({"error": "Texte manquant"}), 400
-    # Traduction Gemini
     wolof_text = french_to_wolof_with_gemini(payload["text"])
-    # Audio Local
     audio_base64 = generate_tts_optimized(wolof_text)
     return jsonify({"wolof_text": wolof_text, "audio": audio_base64})

 import soundfile as sf
 import torch
 import google.generativeai as genai
+import requests  # Ajouté pour WhatsApp
+import tempfile  # Ajouté pour WhatsApp
 from flask import Flask, request, jsonify
 from transformers import pipeline, AutoTokenizer
 from parler_tts import ParlerTTSForConditionalGeneration
+from pydub import AudioSegment  # Ajouté pour convertir le format OGG de WhatsApp
 from dotenv import load_dotenv
 # Charger les variables d'environnement
 # --- Logique TTS et Traduction ---
 def generate_tts_optimized(text: str) -> str:
     torch.manual_seed(98)
     text = convert_digits_in_text(text)
     chunks = split_by_sentences(text, max_chars=100)
     audio_segments = []
     for chunk in chunks:
         if not chunk.strip(): continue
         full_chunk = chunk if chunk.endswith(('.', '!', '?')) else chunk + "."
         prompt_ids = tts_tokenizer(full_chunk, return_tensors="pt").input_ids.to(device)
         with torch.no_grad():
             audio = tts_model.generate(
                 input_ids=description_id,
                 temperature=1.0,
                 min_new_tokens=20
             )
         audio_np = audio.cpu().numpy().squeeze().astype(np.float32)
         if audio_np.size > 0:
             audio_segments.append(audio_np)
     if not audio_segments: return ""
     final_audio = smooth_concat(audio_segments, tts_model.config.sampling_rate)
     final_audio = normalize_audio(final_audio)
     buffer = io.BytesIO()
     sf.write(buffer, final_audio, tts_model.config.sampling_rate, format="WAV")
     buffer.seek(0)
     return "data:audio/wav;base64," + base64.b64encode(buffer.read()).decode()
 def french_to_wolof_with_gemini(text: str) -> str:
     prompt = f"""
         Tu es un traducteur expert en wolof travaillant pour la Sen'eau.
         Utilise un ton poli, professionnel et garde les termes techniques usuels (compteur, branchement, Assistante virtuelle ).
         Texte : {text}"""
     try:
         response = model_gemini.generate_content(prompt)
         return response.text.strip()
     except Exception as e:
         return "Naka ngeen def ! Man la ADAMA, seen Assistante virtuelle bu Sen'eau. Ma ngi fi ngir dimbali leen ci seeni laaj yépp yu jëm ci wàllu ndoxum naan ci Sénégal."
 def wolof_to_french_gemini(text: str) -> str:
     prompt = f"""
         Tu es un traducteur expert en français travaillant pour la Sen'eau.
     data = np.asarray(data, dtype=np.float32)
     if data.ndim > 1: data = data.mean(axis=1)
     wolof_text = asr(normalize_audio(data))["text"]
     if len(wolof_text.strip()) < 2:
         return "Bonjour"
     french_text = wolof_to_french_gemini(wolof_text)
     return french_text
+# --- NOUVELLE ROUTE : Spécifique pour WhatsApp (URL) ---
+@app.route("/transcribe_from_url", methods=["POST"])
+def transcribe_from_url():
+    payload = request.get_json()
+    audio_url = payload.get('url')
+    if not audio_url: return "Bonjour", 400
+    try:
+        # 1. Télécharger l'audio WhatsApp (format .ogg)
+        resp = requests.get(audio_url)
+        with tempfile.NamedTemporaryFile(suffix=".ogg", delete=False) as tmp:
+            tmp.write(resp.content)
+            tmp_path = tmp.name
+        # 2. Convertir OGG -> WAV (16kHz mono pour Wav2Vec2)
+        audio = AudioSegment.from_file(tmp_path)
+        wav_io = io.BytesIO()
+        audio.set_frame_rate(16000).set_channels(1).export(wav_io, format="wav")
+        wav_io.seek(0)
+        # 3. Charger dans numpy
+        data, sr = sf.read(wav_io)
+        data = np.asarray(data, dtype=np.float32)
+        if data.ndim > 1: data = data.mean(axis=1)
+        os.remove(tmp_path) # Nettoyage
+        # 4. ASR + Traduction (Réutilisation de votre logique)
+        wolof_text = asr(normalize_audio(data))["text"]
+        if len(wolof_text.strip()) < 2: return "Bonjour"
+        return wolof_to_french_gemini(wolof_text)
+    except Exception as e:
+        logger.error(f"Erreur WhatsApp ASR: {e}")
+        return "Bonjour"
 @app.route("/tts", methods=["POST"])
 def tts():
     payload = request.get_json()
     if not payload or "text" not in payload: return jsonify({"error": "Texte manquant"}), 400
     wolof_text = french_to_wolof_with_gemini(payload["text"])
     audio_base64 = generate_tts_optimized(wolof_text)
     return jsonify({"wolof_text": wolof_text, "audio": audio_base64})