Spaces:

baharbhz
/

persian_SR

Runtime error

App Files Files Community

baharbhz commited on Feb 2, 2025

Commit

0a74def

verified ·

1 Parent(s): f8a8a21

Update app.py

Browse files

Files changed (1) hide show

app.py +96 -10

app.py CHANGED Viewed

@@ -7,12 +7,78 @@ import numpy as np
 # import moviepy.editor as mp
 import moviepy
 from moviepy.video.io.VideoFileClip import VideoFileClip
 from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
-model_name = "m3hrdadfi/wav2vec2-large-xlsr-persian"
-processor = Wav2Vec2Processor.from_pretrained(model_name)
-model = Wav2Vec2ForCTC.from_pretrained(model_name)
 def preprocess_audio(audio_path):
     y, sr = librosa.load(audio_path, sr=16000, mono=True)
@@ -22,14 +88,34 @@ def preprocess_audio(audio_path):
 def speech_to_text(audio_path):
-    waveform = preprocess_audio(audio_path)
-    input_values = processor(waveform.squeeze(), return_tensors="pt", sampling_rate=16000).input_values
     with torch.no_grad():
-        logits = model(input_values).logits
-    predicted_ids = torch.argmax(logits, dim=-1)
-    transcription = processor.batch_decode(predicted_ids)[0]
-    return transcription
 def video_to_text(video_path):

 # import moviepy.editor as mp
 import moviepy
 from moviepy.video.io.VideoFileClip import VideoFileClip
 from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
+import wget
+import subprocess
+import os
+import csv
+import pandas as pd
+from vosk import Model as VoskModel
+from vosk import KaldiRecognizer, SetLogLevel
+from jiwer import cer
+from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
+import torch
+import librosa
+import torchaudio
+import numpy as np
+url = "https://huggingface.co/MahtaFetrat/tempmodel/resolve/main/checkpoint-15-1200.zip"
+output_file = wget.download(url)
+# !unzip checkpoint-15-1200.zip -d extracted_model
+zip_file = "checkpoint-15-1200.zip"
+output_dir = "extracted_model"
+subprocess.run(["unzip", zip_file, "-d", output_dir], check=True)
+from transformers import Wav2Vec2CTCTokenizer
+tokenizer = Wav2Vec2CTCTokenizer("/vocab.json", unk_token="<unk>", pad_token="<pad>", word_delimiter_token="|")
+from transformers import Wav2Vec2FeatureExtractor
+feature_extractor = Wav2Vec2FeatureExtractor(feature_size=1, sampling_rate=16000, padding_value=0.0, do_normalize=True, return_attention_mask=True)
+from transformers import Wav2Vec2Processor
+tuned_wav2vec_processor = Wav2Vec2Processor(feature_extractor=feature_extractor, tokenizer=tokenizer)
+tuned_wav2vec_model = Wav2Vec2ForCTC.from_pretrained("/extracted_model/checkpoint-15-1200")
+def tuned_wav2vec_speech_file_to_array_fn(path):
+    speech_array, sampling_rate = torchaudio.load(path)
+    speech_array = speech_array.squeeze().numpy()
+    speech_array = librosa.resample(np.asarray(speech_array), orig_sr=sampling_rate, target_sr=tuned_wav2vec_processor.feature_extractor.sampling_rate)
+    return speech_array
+def transcribe_audio(audio_file_path):
+    speech = tuned_wav2vec_speech_file_to_array_fn(audio_file_path)
+    features = tuned_wav2vec_processor(
+        speech,
+        sampling_rate=tuned_wav2vec_processor.feature_extractor.sampling_rate,
+        return_tensors="pt",
+        padding=True
+    )
+    input_values = features.input_values
+    attention_mask = features.attention_mask
+    with torch.no_grad():
+        logits = tuned_wav2vec_model(input_values, attention_mask=attention_mask).logits
+    pred_ids = torch.argmax(logits, dim=-1)
+    predicted = tuned_wav2vec_processor.batch_decode(pred_ids)
+    return predicted[0]
 def preprocess_audio(audio_path):
     y, sr = librosa.load(audio_path, sr=16000, mono=True)
 def speech_to_text(audio_path):
+    # waveform = preprocess_audio(audio_path)
+    # input_values = processor(waveform.squeeze(), return_tensors="pt", sampling_rate=16000).input_values
+    # with torch.no_grad():
+    #     logits = model(input_values).logits
+    # predicted_ids = torch.argmax(logits, dim=-1)
+    # transcription = processor.batch_decode(predicted_ids)[0]
+    # return transcription
+    speech = tuned_wav2vec_speech_file_to_array_fn(audio_path)
+    features = tuned_wav2vec_processor(
+        speech,
+        sampling_rate=tuned_wav2vec_processor.feature_extractor.sampling_rate,
+        return_tensors="pt",
+        padding=True
+    )
+    input_values = features.input_values
+    attention_mask = features.attention_mask
     with torch.no_grad():
+        logits = tuned_wav2vec_model(input_values, attention_mask=attention_mask).logits
+    pred_ids = torch.argmax(logits, dim=-1)
+    predicted = tuned_wav2vec_processor.batch_decode(pred_ids)
+    return predicted[0]
 def video_to_text(video_path):