Spaces:

Pant0x
/

Voice_model

Sleeping

App Files Files Community

Pant0x commited on Nov 13, 2025

Commit

1c88dc7

verified ·

1 Parent(s): 257f2a0

Update app.py

Browse files

Files changed (1) hide show

app.py +11 -12

app.py CHANGED Viewed

@@ -1,6 +1,6 @@
 import gradio as gr
 import torch
-from transformers import Wav2Vec2ForSequenceClassification, Wav2Vec2Processor
 import torchaudio
 # =========================
@@ -10,12 +10,12 @@ MODEL_NAME = "Hatman/audio-emotion-detection"
 DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
 # =========================
-# LOAD MODEL & PROCESSOR
 # =========================
-processor = Wav2Vec2Processor.from_pretrained(MODEL_NAME)
 model = Wav2Vec2ForSequenceClassification.from_pretrained(MODEL_NAME).to(DEVICE)
-# Emotion labels (must match model training order)
 LABELS = ["Angry", "Disgusted", "Fearful", "Happy", "Neutral", "Sad", "Surprised"]
 # =========================
@@ -24,18 +24,17 @@ LABELS = ["Angry", "Disgusted", "Fearful", "Happy", "Neutral", "Sad", "Surprised
 def predict(audio):
     sr, data = audio
-    # Resample to 16kHz if necessary
     if sr != 16000:
         data = torchaudio.functional.resample(torch.tensor(data), sr, 16000).numpy()
         sr = 16000
-    # Prepare input
-    inputs = processor(
         data,
         sampling_rate=sr,
         return_tensors="pt",
-        padding=True,
-        truncation=True
     ).to(DEVICE)
     # Forward pass
@@ -56,9 +55,9 @@ demo = gr.Interface(
     title="Audio Emotion Detection 🎧",
     description=(
         "Fine-tuned Wav2Vec2 model (`Hatman/audio-emotion-detection`) "
-        "for emotion recognition in voice. "
-        "Predicts: Angry, Disgusted, Fearful, Happy, Neutral, Sad, and Surprised. "
-        "Audio must be 16kHz."
     ),
     allow_flagging="never",
 )

 import gradio as gr
 import torch
+from transformers import Wav2Vec2ForSequenceClassification, Wav2Vec2FeatureExtractor
 import torchaudio
 # =========================
 DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
 # =========================
+# LOAD MODEL & FEATURE EXTRACTOR
 # =========================
+feature_extractor = Wav2Vec2FeatureExtractor.from_pretrained(MODEL_NAME)
 model = Wav2Vec2ForSequenceClassification.from_pretrained(MODEL_NAME).to(DEVICE)
+# Emotion labels in model's order
 LABELS = ["Angry", "Disgusted", "Fearful", "Happy", "Neutral", "Sad", "Surprised"]
 # =========================
 def predict(audio):
     sr, data = audio
+    # Resample to 16kHz if needed
     if sr != 16000:
         data = torchaudio.functional.resample(torch.tensor(data), sr, 16000).numpy()
         sr = 16000
+    # Extract features
+    inputs = feature_extractor(
         data,
         sampling_rate=sr,
         return_tensors="pt",
+        padding=True
     ).to(DEVICE)
     # Forward pass
     title="Audio Emotion Detection 🎧",
     description=(
         "Fine-tuned Wav2Vec2 model (`Hatman/audio-emotion-detection`) "
+        "for emotion recognition from voice. "
+        "Detects: Angry, Disgusted, Fearful, Happy, Neutral, Sad, and Surprised. "
+        "Audio should be 16kHz for best accuracy."
     ),
     allow_flagging="never",
 )