Spaces:

nambn0321
/

My_First_ASR

Sleeping

App Files Files Community

nambn0321 commited on Jul 22, 2025

Commit

0663839

verified ·

1 Parent(s): 53b8002

Update app.py

Browse files

Files changed (1) hide show

app.py +4 -9

app.py CHANGED Viewed

@@ -3,29 +3,26 @@ import torchaudio
 from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
 import gradio as gr
-# Load model and processor from your fine-tuned directory
-MODEL_PATH = r"nambn0321/ASR_models"
 processor = Wav2Vec2Processor.from_pretrained(MODEL_PATH)
 model = Wav2Vec2ForCTC.from_pretrained(MODEL_PATH).eval()
 device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
 model.to(device)
-# Define inference function
 def transcribe(audio):
     if audio is None:
         return "No audio provided."
     sr, data = audio
-    # Convert to mono and resample to 16kHz if needed
     waveform = torch.tensor(data).unsqueeze(0)
     if sr != 16000:
         resampler = torchaudio.transforms.Resample(orig_freq=sr, new_freq=16000)
         waveform = resampler(waveform)
     if waveform.shape[0] > 1:
         waveform = waveform.mean(dim=0, keepdim=True)
-    # Inference
     inputs = processor(waveform.squeeze().numpy(), sampling_rate=16000, return_tensors="pt", padding=True)
     input_values = inputs.input_values.to(device)
@@ -36,12 +33,10 @@ def transcribe(audio):
     transcription = processor.batch_decode(predicted_ids)[0]
     return transcription.strip()
-# Gradio interface
 gr.Interface(
     fn=transcribe,
-    inputs=gr.Audio(source="upload", type="numpy", label="Upload WAV/MP3 file"),
     outputs=gr.Textbox(label="Transcription"),
     title="🗣️ ASR Demo with Wav2Vec2",
     description="Upload an audio file (WAV or MP3) and get the transcription using your fine-tuned model.",
-    live=False
 ).launch()

 from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
 import gradio as gr
+MODEL_PATH = "nambn0321/ASR_models"  # Your HF model repo
 processor = Wav2Vec2Processor.from_pretrained(MODEL_PATH)
 model = Wav2Vec2ForCTC.from_pretrained(MODEL_PATH).eval()
 device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
 model.to(device)
 def transcribe(audio):
     if audio is None:
         return "No audio provided."
     sr, data = audio
     waveform = torch.tensor(data).unsqueeze(0)
     if sr != 16000:
         resampler = torchaudio.transforms.Resample(orig_freq=sr, new_freq=16000)
         waveform = resampler(waveform)
     if waveform.shape[0] > 1:
         waveform = waveform.mean(dim=0, keepdim=True)
     inputs = processor(waveform.squeeze().numpy(), sampling_rate=16000, return_tensors="pt", padding=True)
     input_values = inputs.input_values.to(device)
     transcription = processor.batch_decode(predicted_ids)[0]
     return transcription.strip()
 gr.Interface(
     fn=transcribe,
+    inputs=gr.Audio(type="numpy", label="Upload WAV/MP3 file"),
     outputs=gr.Textbox(label="Transcription"),
     title="🗣️ ASR Demo with Wav2Vec2",
     description="Upload an audio file (WAV or MP3) and get the transcription using your fine-tuned model.",
 ).launch()