Spaces:

UshaMurux
/

mashup

Sleeping

App Files Files Community

UshaMurux commited on Mar 31

Commit

d6f60ca

verified ·

1 Parent(s): 8645c94

created app.py

Browse files

Files changed (1) hide show

app.py +108 -0

app.py ADDED Viewed

	@@ -0,0 +1,108 @@

+import gradio as gr
+import torch
+import matplotlib.pyplot as plt
+import os
+from transformers import AutoFeatureExtractor, AutoModelForAudioClassification
+import logging
+import sys
+import librosa
+import os
+logging.basicConfig(
+    level=logging.INFO,
+    format="%(asctime)s - %(levelname)s - %(message)s",
+    handlers=[logging.StreamHandler(sys.stdout)]
+)
+logger = logging.getLogger(__name__)
+MODEL_ID = "UshaMurux/ast-model-big"
+AST_SR = 16000
+device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+feature_extractor = None
+model = None
+def load_model():
+    global feature_extractor, model
+    if model is None:
+        try:
+            logger.info("Loading model...")
+            feature_extractor = AutoFeatureExtractor.from_pretrained(MODEL_ID)
+            model = AutoModelForAudioClassification.from_pretrained(MODEL_ID)
+            model.to(device)
+            model.eval()
+            logger.info("Model loaded successfully...")
+        except Exception as e:
+            logger.error(f"Model loading failed: {e}")
+            raise gr.Error(
+                "Failed to load model.........."
+            )
+    return feature_extractor, model
+def predict_audio(audio_path):
+    logger.info(f"inside predict_audio : {audio_path}")
+    feature_extractor, model = load_model()
+    id2label = model.config.id2label
+    waveform, sr = librosa.load(audio_path, sr=AST_SR, mono=True)
+    waveform = torch.tensor(waveform)
+    max_val = waveform.abs().max()
+    if max_val > 0:
+        waveform = waveform / max_val
+    inputs = feature_extractor(
+        waveform.numpy(),
+        sampling_rate=sr,
+        return_tensors="pt"
+    )
+    inputs = {k: v.to(device) for k, v in inputs.items()}
+    with torch.no_grad():
+        logits = model(**inputs).logits.squeeze(0)
+    probs = torch.softmax(logits, dim=0).cpu().numpy()
+    return waveform.numpy(), probs, id2label
+with gr.Blocks(title="AST Model") as demo:
+    gr.Markdown("AST Genre Classifier")
+    audio_input = gr.Audio(sources=["upload"], type="filepath")
+    plot_output = gr.Plot()
+    label_output = gr.Label(num_top_classes=5)
+    def wrapper(audio_path):
+        waveform, probs, id2label = predict_audio(audio_path)
+        fig, ax = plt.subplots(figsize=(10, 3))
+        ax.plot(waveform)
+        ax.set_title("Waveform")
+        label_dict = {
+            id2label[i]: float(probs[i])
+            for i in range(len(probs))
+        }
+        plt.close(fig)
+        return fig, label_dict
+    btn = gr.Button("Predict")
+    btn.click(wrapper, audio_input, [plot_output, label_output])
+#demo.queue().launch(show_error=True)
+#demo.queue().launch(share=True, show_error=True)
+demo.queue().launch(
+    server_name="0.0.0.0",
+    server_port=7860,
+    ssr_mode=False,
+    share=True, show_error=True)