Spaces:

MahmoudElsamadony
/

VoidFilter

Sleeping

App Files Files Community

MahmoudElsamadony commited on Aug 31, 2023

Commit

d4362f5

1 Parent(s): aa5f8c6

up

Browse files

Files changed (2) hide show

app.py +10 -4
utils.py +9 -46

app.py CHANGED Viewed

@@ -1,4 +1,3 @@
-from transformers import AutoModelForSeq2SeqLM,AutoTokenizer
 import gradio as gr
 from faster_whisper import WhisperModel
 import whisper_timestamped as whisper
@@ -8,18 +7,25 @@ from utils import *
 model = WhisperModel("large-v2")
-tokenizer = AutoTokenizer.from_pretrained("FinetuneModel/VoidFilter")
-FinetuneModel = AutoModelForSeq2SeqLM.from_pretrained("FinetuneModel/VoidFilter")
 def VoidFilter(audio_file):
     audio = whisper.load_audio(audio_file)
     segments, _ = model.transcribe(audio_file, word_timestamps=True)
     word_timestamps = get_word_timestamps(segments)
     transcription = get_transcription(word_timestamps)
-    filtered_text = filterText(transcription,FinetuneModel,tokenizer)
     modified_timestamps = get_modified_timestamps(word_timestamps,filtered_text)
     final_audio, sample_rate = cut_audio(audio, modified_timestamps)
     sf.write("filtered_audio.wav", final_audio, sample_rate)
     return "filtered_audio.wav"

 import gradio as gr
 from faster_whisper import WhisperModel
 import whisper_timestamped as whisper
 model = WhisperModel("large-v2")
 def VoidFilter(audio_file):
     audio = whisper.load_audio(audio_file)
     segments, _ = model.transcribe(audio_file, word_timestamps=True)
     word_timestamps = get_word_timestamps(segments)
     transcription = get_transcription(word_timestamps)
+    filtered_text = filterText(transcription)
     modified_timestamps = get_modified_timestamps(word_timestamps,filtered_text)
     final_audio, sample_rate = cut_audio(audio, modified_timestamps)
     sf.write("filtered_audio.wav", final_audio, sample_rate)
     return "filtered_audio.wav"

utils.py CHANGED Viewed

@@ -1,4 +1,8 @@
 import numpy as np
 def cut_audio(audio, timestamps):
@@ -69,48 +73,10 @@ def get_modified_timestamps(word_timestamps,filtered_text):
     return mod_timestemp
-# def preprocess_function(examples):
-#     inputs = [doc for doc in examples["original"]]
-#     model_inputs = tokenizer(inputs, max_length=30, truncation=True)
-#     # Setup the tokenizer for targets
-#     labels = tokenizer(text_target=examples["filtered"], max_length=29, truncation=True)
-#     model_inputs["labels"] = labels["input_ids"]
-#     return model_inputs
-# def compute_metrics(eval_pred):
-#     predictions, labels = eval_pred
-#     decoded_preds = tokenizer.batch_decode(predictions, skip_special_tokens=True)
-#     # Replace -100 in the labels as we can't decode them.
-#     labels = np.where(labels != -100, labels, tokenizer.pad_token_id)
-#     decoded_labels = tokenizer.batch_decode(labels, skip_special_tokens=True)
-#     decoded_preds = ["\n".join(nltk.sent_tokenize(pred.strip())) for pred in decoded_preds]
-#     decoded_labels = ["\n".join(nltk.sent_tokenize(label.strip())) for label in decoded_labels]
-#     result = {}
-#     rouge = Rouge()
-#     scores = rouge.get_scores(decoded_preds, decoded_labels, avg=True)
-#     for k, v in scores.items():
-#         if isinstance(v, dict):
-#             result.update({f'rouge-{k}': {m: round(val * 100, 4) for m, val in v.items()}})
-#         else:
-#             result[f'rouge-{k}'] = round(v * 100, 4)
-#     prediction_lens = [np.count_nonzero(pred != tokenizer.pad_token_id) for pred in predictions]
-#     result["gen_len"] = np.mean(prediction_lens)
-#     result = {
-#         key: value['f']
-#         for key, value in result.items()
-#         if isinstance(value, dict) and 'f' in value
-#     }
-#     return result
-def filterText(text, model,tokenizer):
     device = 'cpu'
     model = model.to(device)
@@ -133,10 +99,7 @@ def filterText(text, model,tokenizer):
         repetition_penalty=2.0,
         length_penalty=0.5,
         num_beams = 10,
-        num_return_sequences=1,  # Generate 10 sequences
-#         top_k = 10,
-#         do_sample = True,
-#         top_p = 0.97
     )
     preds = [
         tokenizer.decode(gen_id, skip_special_tokens=True, clean_up_tokenization_spaces=True)

 import numpy as np
+from transformers import AutoModelForSeq2SeqLM,AutoTokenizer
+tokenizer = AutoTokenizer.from_pretrained("FinetuneModel/VoidFilter")
+FinetuneModel = AutoModelForSeq2SeqLM.from_pretrained("FinetuneModel/VoidFilter")
 def cut_audio(audio, timestamps):
     return mod_timestemp
+def filterText(text, model=FinetuneModel,tokenizer=tokenizer):
     device = 'cpu'
     model = model.to(device)
         repetition_penalty=2.0,
         length_penalty=0.5,
         num_beams = 10,
+        num_return_sequences=1,
     )
     preds = [
         tokenizer.decode(gen_id, skip_special_tokens=True, clean_up_tokenization_spaces=True)