Spaces:

E-motionAssistant
/

Space5

Running

App Files Files Community

Raemih commited on 15 days ago

Commit

e23e048

verified ·

1 Parent(s): aa9449c

Update app.py

Browse files

Files changed (1) hide show

app.py +114 -21

app.py CHANGED Viewed

@@ -1,36 +1,129 @@
-# app.py — Space 5
-# requirements.txt: transformers, torch, gradio, TTS, numpy, soundfile
 import gradio as gr
-from transformers import pipeline
-from TTS.api import TTS
 import numpy as np
-emotion_model = pipeline(
-    "audio-classification",
-    model="E-motionAssistant/mms-300m-multilingual-ser"
 )
-tts_english = TTS(model_name="E-motionAssistant/text-to-speech-VITS-english", progress_bar=False)
-tts_sinhala = TTS(model_name="E-motionAssistant/Text-to-speech-VITS-sinhala", progress_bar=False)
-tts_tamil   = TTS(model_name="E-motionAssistant/text-to-speech-VITS-tamil",   progress_bar=False)
-def transcribe(audio):
-    return asr(audio)["text"]
-def speak_english(text): return (22050, np.array(tts_english.tts(text)))
-def speak_sinhala(text): return (22050, np.array(tts_sinhala.tts(text)))
-def speak_tamil(text):   return (22050, np.array(tts_tamil.tts(text)))
 with gr.Blocks() as demo:
     gr.TabbedInterface(
         [
-            gr.Interface(fn=transcribe,    inputs=gr.Audio(type="filepath"), outputs=gr.Textbox(), title="ASR"),
-            gr.Interface(fn=speak_english, inputs=gr.Textbox(), outputs=gr.Audio(),                title="TTS English"),
-            gr.Interface(fn=speak_sinhala, inputs=gr.Textbox(), outputs=gr.Audio(),                title="TTS Sinhala"),
-            gr.Interface(fn=speak_tamil,   inputs=gr.Textbox(), outputs=gr.Audio(),                title="TTS Tamil"),
         ],
-        ["ASR (MMS)", "TTS English", "TTS Sinhala", "TTS Tamil"]
     )
 demo.launch()

 import gradio as gr
+import torch
 import numpy as np
+import librosa
+from transformers import AutoFeatureExtractor
+from TTS.api import TTS
+from model import MMSForMultilingualSER
+MODEL_ID = "E-motionAssistant/mms-300m-multilingual-ser"
+# Load feature extractor + model
+feature_extractor = AutoFeatureExtractor.from_pretrained(MODEL_ID)
+emotion_model = MMSForMultilingualSER.from_pretrained(
+    MODEL_ID,
+    ignore_mismatched_sizes=True
 )
+emotion_model.eval()
+# Emotion labels (adjust if different)
+emotion_labels = [
+    "anger",
+    "disgust",
+    "fear",
+    "happy",
+    "neutral",
+    "sad"
+]
+def detect_emotion(audio_file):
+    speech, sr = librosa.load(audio_file, sr=16000)
+    inputs = feature_extractor(
+        speech,
+        sampling_rate=16000,
+        return_tensors="pt"
+    )
+    with torch.no_grad():
+        logits = emotion_model(**inputs)
+    pred = torch.argmax(logits, dim=-1).item()
+    return emotion_labels[pred]
+# Load TTS models
+tts_english = TTS(
+    model_name="E-motionAssistant/text-to-speech-VITS-english",
+    progress_bar=False
+)
+tts_sinhala = TTS(
+    model_name="E-motionAssistant/Text-to-speech-VITS-sinhala",
+    progress_bar=False
+)
+tts_tamil = TTS(
+    model_name="E-motionAssistant/text-to-speech-VITS-tamil",
+    progress_bar=False
+)
+def speak_english(text):
+    audio = tts_english.tts(text)
+    return (22050, np.array(audio))
+def speak_sinhala(text):
+    audio = tts_sinhala.tts(text)
+    return (22050, np.array(audio))
+def speak_tamil(text):
+    audio = tts_tamil.tts(text)
+    return (22050, np.array(audio))
 with gr.Blocks() as demo:
+    gr.Markdown("# Emotion Regulation Assistant")
     gr.TabbedInterface(
         [
+            gr.Interface(
+                fn=detect_emotion,
+                inputs=gr.Audio(type="filepath"),
+                outputs=gr.Textbox(),
+                title="Emotion Detection"
+            ),
+            gr.Interface(
+                fn=speak_english,
+                inputs=gr.Textbox(),
+                outputs=gr.Audio(),
+                title="TTS English"
+            ),
+            gr.Interface(
+                fn=speak_sinhala,
+                inputs=gr.Textbox(),
+                outputs=gr.Audio(),
+                title="TTS Sinhala"
+            ),
+            gr.Interface(
+                fn=speak_tamil,
+                inputs=gr.Textbox(),
+                outputs=gr.Audio(),
+                title="TTS Tamil"
+            )
         ],
+        [
+            "Emotion Detection",
+            "English TTS",
+            "Sinhala TTS",
+            "Tamil TTS"
+        ]
     )
 demo.launch()