Spaces:

baharbhz
/

persian_SR

Runtime error

App Files Files Community

baharbhz commited on Feb 3, 2025

Commit

5124efb

verified ·

1 Parent(s): 55a8763

Update app.py

Browse files

Files changed (1) hide show

app.py +32 -16

app.py CHANGED Viewed

@@ -37,16 +37,28 @@ output_dir = "extracted_model"
 subprocess.run(["unzip", zip_file, "-d", output_dir], check=True)
 # Function for inference from an audio file path
 def infer_from_audio_file(audio_file_path, model, processor, device="cpu"):
     # Load audio file
     audio, sampling_rate = librosa.load(audio_file_path, sr=16000)
-    # Process the audio using the feature extractor from the processor
-    inputs = processor(audio, sampling_rate=sampling_rate).input_values[0]
-    input_features = [{"input_values": inputs}]
-    batch = processor.pad(
             input_features,
             padding=True,
             max_length=None,
@@ -54,22 +66,26 @@ def infer_from_audio_file(audio_file_path, model, processor, device="cpu"):
             return_tensors="pt",
         )
-    # Move inputs to the correct device
-    input_values = batch.input_values.to(device)
-    # Ensure the model is in evaluation mode
-    model.eval()
-    with torch.no_grad():
-        # Make predictions
-        outputs = model(input_values)
-        logits = outputs.logits
-        # Decode the predictions
-        pred_ids = torch.argmax(logits, dim=-1)
-        pred_str = processor.batch_decode(pred_ids.cpu().numpy())
-    return pred_str[0]  # Return the decoded transcription of the audio
 tokenizer = Wav2Vec2CTCTokenizer("./vocab.json", unk_token="<unk>", pad_token="<pad>", word_delimiter_token="|")

 subprocess.run(["unzip", zip_file, "-d", output_dir], check=True)
+# Function to split audio into chunks
+def split_audio(audio, sampling_rate, chunk_size=30):
+    chunk_length = chunk_size * sampling_rate
+    chunks = [audio[i:i + chunk_length] for i in range(0, len(audio), chunk_length)]
+    return chunks
 # Function for inference from an audio file path
 def infer_from_audio_file(audio_file_path, model, processor, device="cpu"):
     # Load audio file
     audio, sampling_rate = librosa.load(audio_file_path, sr=16000)
+    # Split audio into chunks of at most 30 seconds
+    chunks = split_audio(audio, sampling_rate)
+    transcriptions = []
+    for chunk in chunks:
+        # Process the audio using the feature extractor from the processor
+        inputs = processor(chunk, sampling_rate=sampling_rate).input_values[0]
+        input_features = [{"input_values": inputs}]
+        batch = processor.pad(
             input_features,
             padding=True,
             max_length=None,
             return_tensors="pt",
         )
+        # Move inputs to the correct device
+        input_values = batch.input_values.to(device)
+        # Ensure the model is in evaluation mode
+        model.eval()
+        with torch.no_grad():
+            # Make predictions
+            outputs = model(input_values)
+            logits = outputs.logits
+            # Decode the predictions
+            pred_ids = torch.argmax(logits, dim=-1)
+            pred_str = processor.batch_decode(pred_ids.cpu().numpy())
+            transcriptions.append(pred_str[0])
+    # Concatenate the transcriptions
+    full_transcription = ' '.join(transcriptions)
+    return full_transcription
 tokenizer = Wav2Vec2CTCTokenizer("./vocab.json", unk_token="<unk>", pad_token="<pad>", word_delimiter_token="|")