Spaces:

Yilin0601
/

SpeechAccuracyClassification

Sleeping

App Files Files Community

Yilin0601 commited on Mar 20, 2025

Commit

528d66e

verified ·

1 Parent(s): c2c9817

Create app.py

Browse files

Files changed (1) hide show

app.py +66 -0

app.py ADDED Viewed

	@@ -0,0 +1,66 @@

+# app.py
+import gradio as gr
+import torch
+import numpy as np
+import librosa
+from transformers import Wav2Vec2FeatureExtractor, Wav2Vec2ForSequenceClassification
+# 1. Load your model & feature extractor
+model_name = "path_or_hub_id_of_your_finetuned_model"
+model = Wav2Vec2ForSequenceClassification.from_pretrained(model_name)
+feature_extractor = Wav2Vec2FeatureExtractor.from_pretrained(model_name)
+model.eval()
+def classify_accuracy(audio):
+    """
+    audio: This will be a tuple (sample_rate, audio_data) when using Gradio's microphone or file upload
+    We need to convert it to the correct format for the model.
+    """
+    sample_rate, data = audio
+    # Convert audio data to float32 numpy array
+    if not isinstance(data, np.ndarray):
+        data = np.array(data)
+    # If sample_rate != 16000, resample (optional)
+    # For small demos, you can do it with librosa
+    if sample_rate != 16000:
+        data = librosa.resample(data, orig_sr=sample_rate, target_sr=16000)
+        sample_rate = 16000
+    # Extract features
+    inputs = feature_extractor(
+        data,
+        sampling_rate=sample_rate,
+        return_tensors="pt",
+        padding=True
+    )
+    with torch.no_grad():
+        outputs = model(**inputs)
+        logits = outputs.logits
+        predicted_id = torch.argmax(logits, dim=-1).item()
+    # Convert to final accuracy level
+    accuracy_level = predicted_id + 3  # or however you map 0..7 → 3..10
+    return f"Accuracy Level: {accuracy_level}"
+# 2. Build Gradio interface
+title = "Speech Accuracy Classifier"
+description = "Upload an audio file (or record) to see the predicted accuracy level."
+# We use "microphone=True" in gr.Audio if you want an optional mic input
+# By default, "type='numpy'" returns (sample_rate, data)
+demo = gr.Interface(
+    fn=classify_accuracy,
+    inputs=gr.Audio(source="upload", type="numpy"),
+    outputs="text",
+    title=title,
+    description=description,
+    allow_flagging="never"  # optional
+)
+# 3. Launch the Gradio app
+if __name__ == "__main__":
+    demo.launch()